Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов

Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов

Автор: Епрев, Антон Сергеевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Омск

Количество страниц: 118 с. ил.

Артикул: 4998133

Автор: Епрев, Антон Сергеевич

Стоимость: 250 руб.

Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов  Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов 

Содержание
Введение .
Глава 1. Обзор методов категоризации текстовых документов
1.1. Формализация задачи.
1.2. Автоматическая категоризация .
1.3. Индексирование документов.
1.4. Уменьшение размерности пространства признаков
1.5. Методы построения классификаторов.
1.6. Оценка эффективности
1.7. Ансамбли классификаторов .
1.8. Выводы
Глава 2. Разработка классификатора.
2.1. Лексическая база
2.2. Методы разрешения лексической многозначности
2.3. Алгоритм разрешения лексической многозначности
2.4. Построение классификатора.
2.5. Категоризация документов
2.6. Выводы
Глава 3. Программная реализация и экспериментальные исследования .
3.1. Программная реализация
3.2. Эксперименты на коллекции 8.
3.3. Эксперименты на коллекции V 1 . .
3.4. Анализ результатов и рекомендации.
3.5. Выводы
Заключение.
Литература


Увеличение доли ошибок разрешения лексической многозначности с % до % приводит к резкому спаду эффективности категоризации, а для методов с ошибкой -% использование в качестве признаков синсетов не приводит к заметному приросту эффективности категоризации. Существует несколько публикаций, в которых сравниваются эффективности категоризации с использованием слов и синсетов WordNet, полученных с помощью различных методов автоматического разрешения лексической многозначности. Маркова, приводит к росту эффективности категоризации на 2%. В работе [] проводилось сравнение алгоритма категоризации «Ас1аВоо8Ь> на нескольких коллекциях документов, а для устранения лексической многозначности слов применялся метод, суть которого заключается в выборе того синсета, слова которого в документе встречаются чаще остальных. Использование данного метода позволяет повысить эффективность категоризации на 1%. В работе [] описывается метод оценки семантической близости синсетов с помощью контекстных векторов, использующий информацию о совместной встречаемости слов в тексте. Оценка эффективности этого метода проводилась на нескольких наборах слов. Данный метод показывает лучшие результаты среди других методов оценки семантической близости слов на базе ресурса VordNet. Однако, практическое применение данного метода для устранения лексической многозначности не исследовалось. Разработать и реализовать алгоритм разрешения лексической многозначности слов с помощью контекстных векторов на базе ресурса VordNet. Реализовать программный комплекс автоматической категоризации текстовых документов с использованием синсетов Мо1тШеЬ в качестве признаков документов. Исследовать применимость разработанного алгоритма разрешения лексической многозначности к различным коллекциям документов с помощью оценки его влияния на эффективность категоризации. Разработан алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом. Реализован программный комплекс автоматической категоризации текстовых документов, в котором используются синсеты VordNet в качестве признаков документов и контекстные векторы для разрешения лексической многозначности. Практическая значимость заключается в формировании нового инструмента, позволяющего повысить эффективность категоризации текстовых документов. I. И I I . Алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом. Алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты VordNet. Повышение качества категоризации неспециализированных текстов при использовании в качестве признаков документов синсетов Word Net, полученных с помощью разработанного алгоритма разрешения лексической многозначности. Влияние на качество категоризации тематики корпуса дли построения пространства слов, в котором представляются контекстные векторы. Апробации работы. Основные результаты диссертации докладывались на следующих конференциях и семинарах: XVIII всероссийский семинар «Нейроинформатика, ее приложения и анализ данных», г. Красноярск, Академгородок, ; II международная научно-практическая конференция «Прогрессивные технологии и перспективы развития», г. Тамбов, ; II международная заочная научно-практическая конференция «Современные направления научных исследований», ; межвузовская научно-практическая конференция «Информационные технологии и автоматизация управления», г. Омск, ; научный семинар кафедры информационной безопасности факультета компьютерных наук ОмГУ им. Ф. М. Достоевского, г. Омск, . Публикации. Материалы диссертации опубликованы в печатных работах, из них 2 статьи в журналах из списка, рекомендованного ВАК. Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Все представленные в диссертации результаты получены лично автором. Структура и объем диссертации. Диссертация состоит из введения, трех основных глав, заключения и библиографии. Общий объем диссертации 8 страниц, содержит рисунков и таблиц.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.305, запросов: 244