Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах

Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах

Автор: Александров, Михаил Юрьевич

Шифр специальности: 05.25.05

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Москва

Количество страниц: 203 с. ил.

Артикул: 3500799

Автор: Александров, Михаил Юрьевич

Стоимость: 250 руб.

Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах  Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. Общая характеристика проблемы автоматической обработки входного потока текстовой информации и статистического анализа полученных результатов
1.1. Проблема автоматической классификации и статистического анализа
1.2. Развитие технологий обработки текстовой информации в МИД России
1.3. Общие требования к средствам автоматической классификации и статистического анализа входного потока текстовой информации
1.4. Показателшуниверсалыюстн системы и основные требования к их реализации
1.5. Общая характеристика предлагаемой методики решения задачи автоматической классификации и статистического анализа входною потока текстовой информации
ГЛАВА 2. Методика автоматической классификации входного потока текстовой информации с применением конструктивных решений СПО Автоклассификацня
Раздел 2.1. Принцип построения морфологического анализа в программе Автоклассификация
2.1.1. Программа Автоклассификация. Основные понятия и допущения
2.1.2. Таблица классов слов
2.1.3. Таблица окончаний
2.1.4. Таблица особых условий
2.1.5. Таблица последних букв основ слов
2.1.6. Основные действия с кодами
2.1.7. Предварительный анализ слова словаря. Разбивка на основу и окончание
2.1.8. Определение возможной беглой гласной
2.1.9. Чередование согласных
2.1 Изменение буквы Е на Ь при склонении слов
2.1 Чередование смягчающей гласной И
2.1 Проверка падежного согласования комбинаций
2.1 Полное сравнение слов
Раздел 2.2. Струкгура ключевых словосочетаний словарей. Принцип индексирования словарей
2.2.1. Основные понятия
2.2.2. Струкгура ключевых словосочетаний
2.2.3. Сведение поисковых запросов других поисковых систем к формату ключевых словосочетаний СПО Автоклассификация. Дизыонкивная нормальная форма запросов. Объяснение структуры ключевых словосочетаний СПО Автоклассификация
2.2.4. Комбинации прилагательное существительное
2.2.5. Реестр комбинаций
2.2.6. Корректировка результата вхождения ключевого словосочетания в предложение при наличии комбинаций прилагательное существительное
2.2.7. Алгоритм принятия решения о вхождении ключевого словосочетание в обрабатываемое предложение текста
2.2.8. Синтаксические правила ввода словосочетаний в СПО Автоклассификацня
2.2.9. Построение и структу ра индексных файлов словаря
2.2 Поля, используемые в индексных файлах словаря
2.2 Некоторые особенности программы Автоклассификацня по работе с классификаторами и словарями
Раздел 2.3. Обработка текстов и принятие решений о присвоении классов в СПО Автоклассификация
2.3.1. Основные понятия
2.3.2. Формат исходных данных и результатов обработки
2.3.3. Особенности построения текстовых файлов и параметры настроек
2.3.4. Обработка предложений
2.3.5. Определение численной характеристики веса вхождения ключевого словосочетания в текст
2.3.6. Основные параметры настроек, связанные с принятием решения
2.3.7. Общие и частные параметры настроек
2.3.8. Результаты автоматической обработки текстов
2.3.9. Перспективы использования программы Лнтоклассификация
ГЛАВА 3. Методика статистического анализа, формирования и ведения аналитических задач с применением конструктивных решений СПО Судак
Раздел 3.1. Постановка аналитической задачи, проведение предварительных расчетов статистических данных в процессе выполнения автоматической классификации С1Ю Автоклассификация
3.1.1. СПО Судак. Основные функции и предназначение
3.1.2. Понятие аналитической задачи
3.1.3. Методика определения предварительных численных характеристик
3.1.4. Основные параметры настроек, связанные с определением веса класса
3.1.5. Использование предварительных результатов статистики для формирования статистических баз данных
Раздел 3.2. Формирование и ведение аналитических задач с применением конструктивных решений СПО Судак
3.2.1. Статистическая запись в базу. Принцип двойной записи
3.2.2. Построение статистической базы данных аналитической задачи
3.2.3. Учетная политика. Принцип ввода данных в статистическую базу данных
3.2.4. Физический смысл итоговых значений весов статистических записей по всем классам и по отдельно взятому классу
3.2.5. Таблица значимости классов
3.2.6. Форма представления данных статистического анализа
3.2.7. Анатиз документов по их значимости
3.2.8. Методы автоматической идентификации событий
3.2.9. Абсолютные и относительные величины значимости классов
3.2 Уточнение результатов идентификации событий путем разбиения входной информации на потоки
3.2 Построение аналитических задач по трем определяющим классификаторам. Работе промежуючным классификатором
3.2 Многоклассификаторные анажтические задачи
ЗАКЛЮЧЕНИЕ Г
Список литературы


Под атрибутами классифицируемого типа понимаются те атрибуты, для которых множество возможных значений можно представить в виде конечного списка значений. Списки значений атрибутов обычно называют классификаторами, хотя существуют различные точки зрения на понятие классификатор. Классификаторы содержат для каждого значения, называемого классом или, реже, рубрикой, коды и наименования. Элементарная запись классификатора называется классом. Классификация текстов это процедура установления соответствия между текстами и классами классификатора. При обработке большого количества текстов и с ростом объемов информации, передаваемой по компьютерным сетям, возникает проблема автоматизации выполнения классификации текстов. Задача поиска в текстах определенной тематической информации связана с морфологическим, синтаксическим и семантическим анализом языков. Существует огромное количество работ и методик, связанных с данной задачей. Основным правилом для выбора необходимого решения должен служить минимаксный подход Слишком сложный алгоритм даст наилучшие результаты анализа текстов, но не будет соответствовать временным характеристикам слишком простой алгоритм проявит по временным характеристикам себя с наилучшей стороны, но качество анализа может оказаться посредственным. Оптимальное решение следует выбирать исходя из требований к временным характеристикам и из быстродействия используемых технических средств. При обработке текстов, поступающих на различных иностранных языках, один и тот же алгоритм может давать для одних языков отличное качество анализа, а для других языков весьма посредственное. В большинстве случаев, набор иностранных языков, для которых предлагаемый продукт выполняет анализ, жестко ограничен. Ситуация может осложниться, если для каждого языка возникнет необходимость устанавливать свои процедуры проведения анализа. Для классификации информации, как в ручном, так и в автоматизированном и автоматическом режиме, требуется нормативносправочная информация. К нормативносправочной информации относят классификаторы, словари и тезаурусы. Рубрикаторы являются частным случаем классификаторов классификаторы рубрик. Кодификаторы и списки значений являются упрощенной формой классификаторов. Тезаурусы предназначены для обозначения синонимии, отношений между ключевыми словосочетаниями различных типов, а также для указания ретроспективных определений или наименований. В настоящей работе полагается, что информация о синонимах, жаргонах, образных выражений или о ретроспективных наименованиях отдельных классов содержится во вспомогательных словарях ключевых словосочетаний. Ведение и использование тезауруса предполагается, как элемент автоматизации ведения вспомогательных словарей ключевых словосочетаний. Задача ведения нормативносправочной информации состоит из ведения классификаторов и, для некоторых систем, словарей ключевых понятий. Для обработки некоторых типов информации задача ведения словарей ключевых понятий осложняется изза стиля изложения материалов в текстах. Например, в сообщениях средств массовой информации материалы могут содержать некоторые жаргоны или образные названия Зеленый. Поднебесная, Страна восходящего солнца. Если при автоматической классификации используемая технология предполагает использование словаря, то для ускорения работы при поиске ключевых слов или словосочетаний в обрабатываемых текстах требуется индексирование данных, где могут быть выполнены предварительные процедуры морфологического анализа слов и сохранены некоторые промежуточные результаты. В процессе автоматической классификации текстов сократится количество операций и будут использоваться предварительные результаты. Задача принятия решения о присвоении обрабатываемым текстам классов классификатора может быть поставлена и решена на разных уровнях. В самом простом случае присваивать класс тексту при вхождении ключевого словосочетания в текст. Более сложные решения предполагают оценки достоверности и другие критерии, на основании которых принимается решение.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.243, запросов: 228