Адаптивный синтаксический анализатор русского языка

Адаптивный синтаксический анализатор русского языка

Автор: Одинцев, Николай Владимирович

Год защиты: 2003

Место защиты: Москва

Количество страниц: 101 с.

Артикул: 2737548

Автор: Одинцев, Николай Владимирович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Стоимость: 250 руб.

Содержание
Введение .
Глава 1. Обзор литературы
1.1. Корпусная лингвистика
1.2. Синтаксические анализаторы.
1.3. Лингвистические процессоры интегрального и модульного типа .
1.4. Пример развитого синтаксического анализатора. Система i
.
1.5. Сетевые грамматики
Глава 2. Описание синтаксиса на основе моделей управления.
Методика, алгоритмы и программы формирования описания .
2.1. Модели управления как средство описания естественного языка.
2.2. Методика построения множества моделей управления .
2.3. Разработка синтаксического анализатора, основанного на РСП
2.4. Управление работой синтаксического анализатора, основанного на РСП .
2.5. Анализ синтаксических структур фрагментов и выделение из них
использованных моделей управления .
Глава 3. Информационная система для работы с моделями управления
3.1. Требования к информационной системе и ее архитектура
3.2. Базовая функциональность информационной системы
3.3. Структура xфайла. Редактирование моделей управления
Глава 4. Синтаксический анализатор на основе моделей управления . Глава 5. Примеры работы алгоритмов.
5.1. Примеры формирования моделей управления.
5.2. Пример работы синтаксического анализатора на основе моделей
управления
Заключение
Список литерату


В настоящее время эффективность корпусной лингвистики тесно связана с развитием вычислительной техники [1, 2]. Термин корпус обычно обозначает либо текст, доступный для машинной обработки, либо конечный набор текстов, максимально отображающий многообразие языковых явлений [1, 2, 4]. Обработка корпусов текстов ведется с помощью специальных программ - анализаторов, определяющих синтаксическую структуру текстов. Анализ обычно начинается с выделения в тексте основных морфосинтаксических категорий, затем исследуется взаимосвязь слов на более высоком синтаксическом уровне. Такой анализ применяется, например, для аннотирования текстов. Анализаторы условно можно разделить на два типа: осуществляющие полный и осуществляющие частичный разбор синтаксической структуры предложений. В первом случае ставится задача получить настолько детализированную структуру, насколько это вообще возможно. Во втором случае используются более грубые синтаксические категории, и, например, могут игнорироваться внутренние структуры фрагментов определенных типов, несущественных для решаемой задачи [1,6]. Одним из важных объектов изучения в корпусной лингвистике является словосочетание (collocation). Этот термин обозначает комбинацию слов, с определенной вероятностью встречающихся рядом; если словосочетание появляется в тексте достаточно часто, его называют значимым словосочетанием. Слова в словосочетании могут быть разделены другими словами, но число этих слов обычно не превышает четырех. Тем не менее установлено, что характерной особенностью выборочных исследований достаточно обширной области является их заведомая неполнота. Разнообразие элементов может бьгть столь велико, а распределение их по численностям столь неравномерно, что ни в одну реально мыслимую выборку все они попасть решительно не в состоянии. Достаточно сказать, что объем подавляющего большинства лексических выборок (в количестве словоупотреблений) значительно меньше оценок объема словаря языка. Одним из традиционных применений методологии корпусной лингвистики является построение статистических словарей, например, словарей отдельных поэтов и писателей (можно отметить словарь языка Шекспира [; в России одним из первых опытов подобного рода был словарь языка Пушкина [9]). В х г. Затем наступает кризис: электронные корпусы текстов продолжают множиться и увеличиваться по объему (в некоторых из них счет идет уже на сотни миллионов словоупотреблений), но не видно новых частотных словарей, которые были бы созданы на основе этих корпусов. Это отчасти объясняется тем, что процесс лемматизации (выделения основ слов и «начальных» форм) не поддается алгоритмам на сто процентов. Доля ручного вмешательства хотя и уменьшается относительно, но продолжает расти абсолютно. При росте объема текстового корпуса в 0 раз, объем ручного труда при постредактировании возрастет, скажем, в раз [7]. Статистические словари и таблицы могут содержать не только отдельные слова, но и словосочетания, предоставляя богатый материал для изучения комбинаторики слов в тексте. В [7] приводятся примеры использования различных словосочетаний в текстах Достоевского, в частности, предлога до. Анализ правых соседей в данном случае обнаруживает свидетельства употребления этого предлога в пространственном значении (до ворот, до дверей, до дивана, до дому, до кареты, до квартиры, до места, до Москвы, до передней, до печки, до поворота, до порога, до угла). Несравненно чаще обнаруживаются темпоральные употребления (до вечера, до времени, до завтра, до ночи, до рассвета, до свету, до сегодня, до утра). Иногда маркером времени выступают какие-то привычные символы (до гроба, до могилы), либо обозначения конкретных событий (до обеда, до отъезда, до приезда, до прихода, до свадьбы). Очень часто предлог ассоциируется с идеей степени и предела, что уже многое говорит об особенностях семантики Достоевского (до ыубины, до конца, до крайности, до нитки, до основания, до последнего, до самого, до того, до чего; а с другой стороны - до малейшей, до мелочи, до одного, до одной).

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.203, запросов: 244