Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов

Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов

Автор: Турдаков, Денис Юрьевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Москва

Количество страниц: 138 с. ил.

Артикул: 4646691

Автор: Турдаков, Денис Юрьевич

Стоимость: 250 руб.

Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов  Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов 

Содержание
Введение
Глава 1. Разрешение лексической многозначности
1.1. Используемая терминология .
1.1.1. Терминология классической лингвистики.
1.1.2. Терминология компьютерной лингвистики
1.2. Основные проблемы разрешения лексической многозначности .
1.2.1. Значение .
1.2.2. Контекст .
1.2.3. Методы опенки.
1.3. Обзор работ .
1.3.1. Работы х х годов
1.3.2. Методы, основанные внешних источниках знаний
1.3.3. Методы, основанные на обучении по размеченным корпусам .
1.3.4. Методы, основанные на обучении по неразмеченным корпусам .
1.4. Выводы к первой главе
Глава 2. Вычисление семантической близости в сетях документов
2.1. Сети документов
2.2. Семантическая близость в сетях документов
2.2.1. Локальные методы .
2.2.2. Глобальные методы
2.3. Википедия .
2.3.1. Вычисление семантической близости между статьями Википедии
2.3.2. Обработка Википедии
2.4. Обзор работ, использующих Википедию для устранения лексической многозначности
2.5. Выводы ко второй главе .
Глава 3. Снятие лексической многозначности .
3.1. Общий процесс обработки .
3.2. Метод, использующий однозначный контекст .
3.2.1. Описание метода
3.2.2. Эксперименты
3.2.3. Выбор параметров и результаты
3.2.4. Выводы.
3.3. Метод на основе специализированной марковской модели .
3.3.1. Описание метода
3.3.2. Эксперименты
3.3.3. Выводы.
3.4. Метод на основе марковской модели, обобщенной на случай
нескольких независимых цепей
3.4.1. Мотивация и примеры .
3.4.2. Обобщение марковской модели
3.4.3. Алгоритм для нахождения наиболее вероятной последовательности состояний .
3.4.4. Применение модели к задаче устранения лексической многозначности .
3.4.5. Эксперименты .
3.4.6. Выводы
3.5. Выводы к третей главе
Заключение .
Литература


Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» ( г. РАСЫС) ( г. Работа состоит из введения, трех глав, заключения и списка литературы. Общий объем диссертации составляет 8 страниц. Список литературы содержит 9 наименований. Лексическая многозначность — это фундаментальное свойство естественных языков: каждое слово может иметь более одного значения. Так, например, каждое из 1 наиболее часто встречающихся в английском языке имен существительных имеет в среднем 7. WordNct |9]. Разрешение лексической лтогозпачности — это установление значения слова в некотором контексте []. Для человека процесс устранения многозначности во многом является подсознательным и не представляет каких-либо трудностей. Несмотря на это, как вычислительная проблема он представляет собой сложнейшую задачу, относящуюся к «ИИ-полиым» — задачам, чья сложность эквивалентна главной проблеме искусственного интеллекта —¦ созданию ИИ в «сильном смысле» []. Важность задачи разрешения лексической многозначности сложно переоценить. В электронной библиотеке ACL (The Association for Computational Linguistics) содержится более 0 статей по данной теме []. Очевидно, что решение данной задачи является необходимым условием для полного понимания естественного языка. Машинный перевод: понимание смысла слова является неотъемлемой частью правильного перевода слов, значение которых зависит от контекста. Информационный поиск: В процессе поиска специфичных ключевых слов, желательно оставлять только документы, в которых эти слова встречаются в нужном смысле. Например, при поиске комментариев к судебным решениям, желательно пропустить документы, 1з который слово закон ассоциируется с королевской властью 2]. Сейчас системы информационного поиска не используют специальные алгоритмы для разрешения лексической многозначности и основываются на предположении, что пользователь введет достаточно дополнительной информации о контексте, чтобы получить релевантные результаты. Контент-анализ: основным подходом в контеит-анализе является анализ распределения категорий слов в текстовых коллекциях, то есть слов относящихся к заданной концепции, теме, и т. Очевидно, что установление смысла слова в каждом конкретном случае необходимо для построения верных распределений категорий [|. Обработка речи: разрешение многозначности необходимо для правильного воспроизведения слов при синтезе текстов, а также для сегментации слов и дифференциации омофонов при распознавании речи |]. Обработка текстов: разрешение многозначности используется для повышения точности методов классификации и кластеризации текстов (4|, устранения сложных орфографических ошибок [). В дайной главе определяются основные понятия, необходимые для дальнейшего описания методов и алгоритмов. Также приводится обзор литературы но данной тематике. Терминология области, изучаемой в данной работе, тесно связана с терминологией классической лингвистики, возникшей намного раньше первых компьютеров. Еще Аристотель пытался систематизировать и объяснить феномены естественного языка []. Как следствие терминология классической лингвистики содержит множество нюансов известных только специалистам в области исследования языков. Однако так как исследование языка не является нашей целью, мы введем только определения и рассуждения, необходимые для понимания работы методов и алгоритмов, приведенных в следующих главах. Во всех развитых языках присутствуют как однозна^тые, так и многозначные слова. Способность слов выступать лишь в одном значении называется однозначностью или мопосемией. Примеры таких слов: «бинокль», «троллейбус», «suitcase», «поип». Однако большинство слов имеют не одно, а несколько значений. Они называются многозначными или полисемантическими. Способность лексических единиц иметь несколько значений называется многозначностью или полисемией. Примерами таких слов могут служить «дом» (жилище, строение, домашнее хозяйство, семья), платформа, platform (железнодорожная, политическая, компьютерная, континентальная). Слово приобретает многозначность в процессе исторического развития языка.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.211, запросов: 244