Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов

Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов

Автор: Арефьев, Николай Викторович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2012

Место защиты: Москва

Количество страниц: 188 с. ил.

Артикул: 5523632

Автор: Арефьев, Николай Викторович

Стоимость: 250 руб.

Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов  Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов 

Оглавление
Введение
Глава 1. Ограничения на сочетаемость в задаче автоматического синтаксического анализа.
1.1 Описание проблемы.
1.1.1 Задача автоматического синтаксического анализа
1.1.2 Синтаксический анализатор системы Тгееюп
1.1.3 Проблема омонимии.
1.1.4 Виды омонимии.
1.1.5 Учет сочетаемости для разрешения омонимии.
1.2 Подходы к описанию и учету сочетаемости.
1.2.1 Учет сочетаемости при синтаксическом анализе в системе Этап
1.2.2 Словари сочетаемости русского языка.
1.2.3 одходы к автоматическому описанию сочетаемости
1.2.4 Необходимость комбинированного подхода к формированию словаря сочетаемости.
Глава 2. Структура компьютерного словаря сочетаемости.
2.1 Требования к компьютерному словарю сочетаемости.
2.1.1 Морфосинтаксические ограничения сочетаемости.
2.1.2 Лексические ограничения сочетаемости
2.1.3 Семантические ограничения сочетаемости
2.1.4 Другие виды ог раничений сочетаемости.
2.1.5 Типы информации о сочетаемости
2.2 Компьютерный словарь сочетаемости как система классов.
2.2.1 Интерфейсы компьютерного словаря сочетаемости.
2.2.2 Структуры данных и реализация интерфейсов.
Глава 3. Формирование компьютерного словаря сочетаемости
3.1 Автоматическое формирование тензора сочетаемости
3.1.1 Формирование корпуса примеров.
3.1.2 Морфологический анализ
3.1.3 Частичный синтаксический анализ.
3.1.4 Статистическая обработка
3.2 Импорт онтологической информации о сочетаемости
3.2.1 Модели управления
3.2.2 Словарные определения
Глава 4. Обобщение статистической информации о сочетаемости
4.1 Проблемы шума и разреженности
4.2 Подходы к обобщению
4.3 Контекстные векторы
4.4 Кластеризация
4.5 Кластеры и семантические классы
4.6 Выявление семантической сочетаемости.
4.6.1 Пополнение базового множества
4.6.2 Отсев лексической сочетаемости.
Глава 5. Словарь сочетаемости в системе автоматического синтаксического анализа
5.1 Учет информации о сочетаемости при синтаксическом анализе
5.1.1 Метод учета сочетаемости при синтаксическом анализе
5.1.2 Примеры разрешения синтаксической омонимии.
5.1.3 Экспериментальная проверка метода учета сочетаемости.
5.2 Технология и инструментальные средства формирования и сопровождения словаря сочетаемости
5.2.1 Инструменты формирования базового словаря сочетаемости
5.2.2 Инструмент тестирования синтаксического анализатора
5.2.3 Инструмент сопровождения словаря сочетаемости
Заключение.
Литература


Алгоритм работы синтаксического анализатора Тгееюп базируется на идее перебора под управлением эвристической функции (подробно этот алгоритм описан в []). В приложении Б приведен пример правила с пояснениями. Если на очередном шаге перебора в результате применения некоторого правила получается синтаксическая структура, покрывающая предложение целиком, она попадает в список результатов анализа. В противном случае получившаяся промежуточная структура может участвовать в дальнейшем переборе. Одним из способов борьбы с омонимией является использование различных эвристик, делающих переборный процесс направленным (позволяющих пробовать вначале наиболее перспективные варианты). Каждая такая функция проверяет соответствие структуры определенным языковым нормам и возвращает неотрицательное действительное число, которое тем больше, чем серьезнее структура нарушает данные нормы (поэтому функция называется штрафной функцией). Каждой синтаксической структуре сопоставляется вектор, составленный из значений штрафных функций, вычисленных для этой структуры - штрафной вектор. Норма штрафного вектора, поставленного в соответствие структуре, называется штрафом данной структуры. Это значит, что наиболее перспективные варианты синтаксического анализа предложения становятся доступны первыми. Кроме того, ноток результатов анализа оказывается упорядоченным по возрастанию штрафов этих результатов, что позволяет остановить работу анализатора в любой момент; при этом алгоритм гарантирует, что все потерянные результаты хуже (с точки зрения используемых эвристик), чем все выданные. Отмстим, что вышесказанное справедливо только в том случае, когда штрафные функции являются монотонно неубывающими (подробнее требования к штрафным функциям описаны в Г]). Грамматический словарь русского языка» А. Л. Зализняка []). Таким образом, топологические ограничения, хотя и позволяют существенно сократить перебор, не дают удовлетворительного решения проблемы омонимии -требуется оценивать и другие свойства синтаксической структуры [,]. Рис. Ниже подробно рассмотрена проблема омонимии в контексте автоматического синтаксического анализа. Перечислены типы омонимии и показано, что во многих случаях проблему омонимии можно разрешить, если помимо топологических ограничений учитывать ограничения на сочетаемость слов. Более того, существуют типы синтаксической омонимии, для разрешения которых (то есть для выбора правильной синтаксической структуры в процессе анализа) учет ограничений на сочетаемость слов необходим. Омонимию можно рассматривать в двух аспектах: как свойство языка и как свойство АОТ-системы. Омонимия как свойство языка состоит в том, что любые знаки естественного языка (то есть морфемы, слова, словосочетания, предложения) могут иметь несколько значений (являться омонимичными). В лингвистике омонимия обычно рассматривается именно как свойство языка. Типичное определение омонимии в словаре звучит следующим образом: «свойство языковых выражений иметь несколько значений или выражать несколько понятий, никак не связанных между собой» []. Омонимия как свойство языка - понятие неформальное, хотя бы потому, что не определено понятие значения языкового знака или языкового выражения. Омонимия как свойство АОТ-системы заключается в том, что АОТ-система может неоднозначно интерпретировать языковые знаки (слова, словосочетания, предложения). Поскольку интерпретация языкового знака в АОТ-системах обычно строится в рамках некоторого формализма и представляет собой, в конечном счете, объект в памяти компьютера, то можно ввести формальное определение: языковой знак называется омонимичным (с точки зрения конкретной АОТ-системы), если для него АОТ-система строит несколько интерпретаций. При этом неоднозначность интерпретации может быть связана как с омонимичностью интерпретируемого знака с точки зрения языка, так и с несовершенством используемых в системе алгоритмов обработки текстов и формальных представлений интерпретаций. Отметим, что несовершенство тех же составляющих АОТ-системы может привести к тому, что для омонимичного с точки зрения языка знака будет построена единственная интерпретация.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.212, запросов: 244