Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов

Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов

Автор: Агеев, Михаил Сергеевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2004

Место защиты: Москва

Количество страниц: 136 с. ил.

Артикул: 2881293

Автор: Агеев, Михаил Сергеевич

Стоимость: 250 руб.

Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов  Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов 

Использование морфологии. Борьба с высокой размерностью сокращение числа используемых атрибутов путем выделения наиболее значимых. Использование дополнительных атрибутов документа. Оценки метода машинного обучения на коллекции документов. Обзор публикаций, посвященных практическому сравнению методов машинного обучения. Обзор методов машинного обучения. Метод Байеса. Нейронные сети. Построение булевых функций. Обзор методов, основанных на знаниях. Технология классификации . УИС РОССИЯ. ВЫВОДЫ. Шаг 4 усечение формулы. Описание алгоритма ПФБА. Свойства метрик полнота, точность, мера. Исследование сходимости алгоритма ПФБА для идеальной рубрики. Описание программной реализации алгоритма. Эксперименты на коллекции 8. Эксперименты на коллекции РОМИП. Выводы. Тематический анализ коллекции документов i. Анализ по метаданным. Применение тематического анализа в ИС6
Вторым этапом является построение классифицирующей функции при помощи обучения на примерах. Качество рубрицирования зависит и от того, как документы будут преобразованы в векторное представление, и от алгоритма, который будет применен на втором этапе.


Создание методов автоматической классификации текстов, сочетающих в себе преимущества методов машинного обучения и методов, основанных на знаниях. Разработка эффективных методов машинного обучения, учитывающих особенности задачи классификации текстов. Улучшение существующих процедур классификации текстов, использующих инженерный подход в первую очередь, уменьшение трудомкости. Создание различных помощников для автоматической проверки и коррекции описания рубрик и результатов рубрицирования. В разделе 2 датся обзор методов, применяемых для автоматической классификации текстов. Наиболее эффективные методы классификации текстов используются в дальнейшем исследовании в качестве отправной точки для сравнения и для разработки более эффективных методов. В разделе 3 приводится описание и исследование разработанного автором метода машинного обучения для автоматической классификации текстов, основанного на моделировании логики рубрикатора. Описываемый алгоритм строит правила отнесения документов к рубрике в виде, аналогичном используемому экспертами при инженерном подходе. Теоретическое рассмотрение позволяет доказать, что при определнных предположениях о содержании рубрики алгоритм строит описание рубрики, близкое к оптимальному. В разделе 4 описываются разработанные автором методы и технологии повышения эффективности методов классификации текстов, основанных на знаниях. Описываемые технологии основаны на статистическом анализе распределения понятий и метаданных в коллекции документов и реализованы в виде интерактивных инструментов в полнотекстовой информационной системе. Разработана методика применения указанных средств для повышения эффективности работы экспертов, создающих описания рубрики. Данные средства внедрены в технологический процесс построения систем классификации текстов проекта Университетская Информационная Система РОССИЯ, разрабатываемого в НИВЦ МГУ НаучноИсследовательском Вычислительном Центре МГУ им. М.В. Ломоносова. В данном разделе датся обзор основных подходов, применяемых для автоматической классификации текстов. Мы опишем базовые технологии, применяемые для обработки текстов и общепринятые методы оценки результатов классификации. Стоит отметить, что в рамках данного обзора мы не можем покрыть весь спектр методов и технологий, применяемых для автоматической классификации текстов. Поэтому мы выбрали, с одной стороны, классические методы, которые часто цитируются в литературе. С другой стороны, в данном обзоре обосновывается выбор методов, которые мы выбрали в качестве отправной точки для дальнейших исследований по разработке более эффективных методов. В разделе 2. Описываемые подходы являются в некотором смысле классическими и используются как алгоритмами классификации текстов машинного обучения и основанными на знаниях, так и алгоритмами поиска информации например, в поисковых системах. В разделах 2. В разделе 2. Основным выводом из нескольких независимых публикаций является преимущество одного из методов V V i, описание в разделе 2. Основным недостатком метода БУМ является сложность в интерпретации правил отнесения документов к рубрике, которые используются БУМ. Это означает, что для достижения целей диссертации взаимной интеграции методов машинного обучения и методов, основанных на знаниях БУМ мало пригоден и требуются иные подходы. В разделе 2. Мы выбрали широко известные методы в частности, упоминаемые в публикациях по сравнению методов. Более подробно описывается метод БУМ и методы, строящие описание рубрики в виде, пригодном для анализа человеком кандидаты для использования в наших целях. В разделе 2. В последнем разделе 2. Первым этапом решения задачи автоматической классификации текстов является преобразование документов, имеющих вид последовательности символов, к виду, пригодному для алгоритмов машинного обучения в соответствии с задачей классификации. Обычно алгоритмы машинного обучения имеют дело с векторами в пространстве К называемом также пространством признаков. Отображение документов в пространство признаков также используется и методами, основанными на знаниях.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.196, запросов: 244