Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе

Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе

Автор: Чардин, Иван Сергеевич

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2004

Место защиты: Москва

Количество страниц: 129 с. ил.

Артикул: 2626683

Автор: Чардин, Иван Сергеевич

Стоимость: 250 руб.

1. Введение
О проблематике и строении настоящей работы.
2. Корпусы с синтаксической разметкой и автоматический синтаксический анализ.
Общие замечания.
Лингвистические корпусы с синтаксической разметкой
Характеристики.
Существующие корпусы .
Применение корпусов с синтаксической разметкой
Стратегии разработки приложений автоматического синтаксического анализа и корпуса с синтаксической разметкой на основе грамматики зависимостей
Количественная оценка программ автоматического синтаксического анализа на материале корпусов с синтаксической разметкой.
3. Корпус с синтаксической разметкой для русского языка
Состав корпуса
Уровни разметки
Формат разметки.
Типы лингвистической информации.
Морфологическая информация.
Синтаксическая информация
Разработка соглашений по разметке.
Программное обеспечение для подготовки корпуса и работы с ним.
Инструменты разметки
Инструменты для сбора информации по корпусу.
4. Применение корпуса с разметкой при разрешении синтаксической неоднозначности в лингвистическом процессоре ЭТАП3.
Проблема разрешения синтаксической неоднозначности в автоматической обработке текста
Синтаксический компонент лингвистического
процессора ЭТЛП
Предварительная обработка предложения и порождение
гипотетических связей.
Разрешение синтаксической неоднозначности
на основе правил
Комбинированный алгоритм разрешения синтаксической
неоднозначности для лингвистического процессора ЭТАП3
Реализация комбинированной стратегии обработки языковых данных как одно из направлений развития лингвистического
процессора ЭТАП
Комбинированный алгоритм разрешения синтаксической
неоднозначности.
Архитектурные ограничения и альтернативные подходы
Экспериментальный модуль для
лингвистического процессора ЭТАП
Наборы данных и их получение
Качественная оценка комбинированного алгоритма.
5. Количественная оценка алгоритмов автоматического синтаксического анализа для русского языка
Предлагаемые принципы оценки алгоритмов синтаксического анализа для русского языка.
Количественная оценка алгоритма синтаксического анализа лингвистического процессора ЭТАП3.
Экспериментальные данные.
Программный комплекс.
Результаты оценки
Анализ полученных результатов
Эксперимент по установлению наличия синтаксических связей в пространстве поиска алгоритма синтаксического анализа
Эксперимент по определению вклада правил предпочтения и корпусного модуля в работу алгоритма синтаксического анализа
6. Результаты и перспективы.
7. Приложения
Приложение 1. Образцы данных, собранных по корпусу
Приложение 2. Список морфологических характеристик, используемых в корпусе ИППИ РАН.
Приложение 3. Основные синтаксические отношения, используемые в корпусе ИППИ РАН.
8. Список иллюстраций
Литература


С распространением персональных компьютеров и сетей передачи данных неуклонно растет потребность в системах автоматической обработки текстов и важность задачи их совершенствования. Получение новых результатов на этом направлении требует исследований, охватывающих целый ряд смежных областей информатики, лингвистики, психологии, математики и других дисциплин. Данная работа принадлежит к категории таких исследований. Ее центральная тема лингвистические корпусы с синтаксической разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе. Область автоматической обработки текста сегодня сложно представить себе без лингвистических корпусов с разметкой. Это собрания языковых данных, для которых сформулирована и записана информация об их структуре. Работа, положенная в основу настоящей диссертации, стала возможной благодаря грантам РФФИ 3, 5. Для теоретикосинтаксических изысканий и в автоматическом синтаксическом анализе широко применяются корпуса с синтаксической разметкой. Многие виды разметки требуют участия экспертовлингвистов в подготовке корпуса. К ним относится и разметка синтаксическая, которая представляет собой особо трудоемкий вид разметки. Это связано с тем, что точность результатов предварительной автоматической синтаксической разметки далека от 0, особенно при различении большого числа типов отношений. Корпуса текстов с синтаксической разметкой широко применяются при создании современных алгоритмов автоматического синтаксического анализа и для количественной оценки их работы. Элементы синтаксического анализа все шире используются и в речевых технологиях см. Кривнова, Чар дин . Предлагаемая работа построена следующим образом. За настоящим введением следует обзорная глава 2, в которой рассказывается о лингвистических корпусах с синтаксической разметкой, перспективных методах в области автоматического синтаксического анализа, связанных с использованием этих корпусов, и предпринимается попытка осмысления этого научноисследовательского направления в широком междисциплинарном контексте. При этом особое внимание уделяется корпусам с синтаксической разметкой на основе грамматики зависимостей. Подавляющее большинство исследований по автоматическому синтаксическому анализу за рубежом опирается на грамматики составляющих и корпусы, размеченные на их основе. Однако в последние годы все больше специалистов приходит к выводу, что использование грамматик зависимостей предоставляет более широкие возможности для разработки программ автоматического синтаксического анализа например, КоБепГеМ . На материале русского языка электронных корпусов с синтаксической разметкой до самого последнего времени не существовало. Глава 3 посвящена первому такому корпусу для русского языка, подготовленному в Лаборатории компьютерной лингвистики Института Проблем Передачи Информации РАН под руководством проф. И.М. Богуславского при участии автора Богуславский и др. Разметка корпуса, о котором идет речь, осуществлялась на основе грамматики зависимостей. Для синтаксических отношений помечались их типы в соответствии с подробной классификацией, которая основана на синтаксической модели, принятой в лингвистическом процессоре ЭТАП3 Апресян и др. Апресян и др. Данная модель, в свою очередь, базируется на поверхностносинтаксическом компоненте модели СмыслТекст Мельчук , практической реализацией которого она является. В главе 4 излагается разработанный автором алгоритм разрешения синтаксической неоднозначности с использованием корпусных данных для лингвистического процессора ЭТЛП3, который был реализован как отдельный экспериментальный модуль процессора. В этой связи рассматривается синтаксический компонент лингвистического процессора ЭТАП3, затрагивается вопрос архитектурных ограничений на использование в нем корпусных данных, говорится о различных типах корпусных данных, собранных для обеспечения работы алгоритма. Завершает работу глава 6, в которой обсуждаются полученные результаты, перспективы расширения и дальнейшего применения корпуса с синтаксической разметкой для русского языка, отечественные и мировые тенденции в данной области.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.192, запросов: 244