Автоматизация лингвистической обработки словарей научно-технической информации

Автоматизация лингвистической обработки словарей научно-технической информации

Автор: Яфаева, Гузал Мирзахмедовна

Шифр специальности: 05.25.01

Научная степень: Кандидатская

Год защиты: 1984

Место защиты: Москва

Количество страниц: 216 c. ил

Артикул: 4032075

Автор: Яфаева, Гузал Мирзахмедовна

Стоимость: 250 руб.

Автоматизация лингвистической обработки словарей научно-технической информации  Автоматизация лингвистической обработки словарей научно-технической информации 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Глава I. АНАЛИЗ СУЩВСТВУЮ1Щ СПОСОБОВ АВТОМАТИЗАЦИИ
ЛИНГВИСТИЧЕСКОЙ ОБРАБОТКИ СЛОВАРЕЙ
1.1. Способы автоматизации лингвистической
обработки словарей .
1.2. Критическая оценка рассмотренных
способов
Выводы
Глава 2. ПРИНЦИПЫ МОРФОЛОГИЧЕСКОГО И
СИНТАКСИЧЕСКОГО АНАЛИЗА.
2.1. Краткая характеристика существующих
методов.
2.2. Морфологический анализ
2.3. Синтаксический анализ.
Выводы
Глава 3. РАЗРАБОТКА СПОСОБОВ АВТОМАТИЗАЦИИ
ЛИНГВИСТИЧЕСКОЙ ОБРАБОТКИ СЛОВАРЕЙ
3.1. Необходимость автоматизации
лингвистической обработки словарей
3.2. Способы автоматизации лингвистической
обработки словарей .
3.3. Автоматическое выделение словоизменительной
и словообразовательной основ слов и назначение грамматической информации .
3.3.1. Применение обратного словаря словоформ . .
3.3.2. Применение обратного словаря основ слов . .
3.3.3. Применение словарей суффиксов и
псевдосуффиксов
3.4. Использование парадигматических отношений между словами для уточнения результатов
обработки слов.
3.5. Применение локального синтаксического анализа
для уточнения результатов обработки слов
Выводы.
Глава 4. МАШИННАЯ РЕАЛИЗАЦИЯ ПРОЦЕССОВ ЛИНГВИСТИЧЕСКОЙ
ОБРАБОТКИ СЛОВАРЕЙ .
4.1. Предварительные замечания .
4.2. Алгоритм автоматического назначения признаков
с помощью обратного словаря словоформ
4.3. Алгоритм автоматического назначения признаков
с помощью обратного словаря основ слов
4.4. Алгоритм назначения признаков с помощью
словарей суффиксов и псевдосуффиксов
4.5. Автоматическое назначение признаков глагольности, моделей управления и номеров
словообразовательных классов
Выводы. НО
ЗАКЛЮЧЕНИЕIII
ЛИТЕРАТУРА


Вероятность правильного определения грамматического класса таким способом равна 0,9. В этой же работе описывается способ автоматического выделения основы. Для определения длины словоизменительной основы слова сначала определяется его грамматическая принадлежность, затем последовательно отделяются конечные буквы исследуемой словоформы и сравниваются со списками окончаний соответствующего грамматического класса. Если грамматический класс определяется с точностью до двухзначной омонимии, то сравнение ведется по двум спискам окончаний. В качестве основного принимается окончание максимальной длины. При таком способе вероятность правильного однозначного определения длины словоизменительной основы слов латышского языка, как показали эксперименты, равна 0,. Автоматическое определение грамматической информации слов на основе анализа концов их буквенных кодов возможно и без применения специальных таблиц. В работе [] описан способ, базирующийся на применении словарей. Идея их применения заключается в следующем. Всем словам естественного языка, включенным в словарь, приписывается соответствующая грамматическая информация. Анализируемое слово ищется в словаре и ему приписывается вся информация, содержащаяся в словаре. В [5і] определение грамматических классов происходит на основе обратного словаря словоформ, составленного автором для латышского языка. Методика его использования аналогична описанной в [] . В результате проведенного на материале латышских текстов эксперимента оказалось, что вероятность правильного определения грамматических классов составляет 0,. Был также проведен эксперимент по определению детальной грамматической информации имен существительных на базе обратного словаря сло-вофорл. Оказалось, что вероятность правильного определения признаков рода, числа, падежа существительных равна 0,. В работе [] исследователем на основе экспериментов установлено, что процедура распознавания грамматической информации словоформ, предложенная для русского языка, осуществляется на материале испанского языка с вероятностью 0,. Средствами для проведения экспериментов послужили таблицы соответствия различных грамматических классов двухбуквенным и четырехбуквенным концам испанских словоформ. В таблицах приведеш списки двухбуквенных и четырехбуквенных концов слов с соответствующими грамматическими классами. Объектом анализа был словник обратного частотного словаря испанского языка. Классификационная система обобщенных грамматических классов включила классов. Вероятность правильного определения грамматических классов испанских словоформ по методике Г. Г.Белоногова колеблется согласно проведенным экспериментам в интервале от 0, до 0,. А при использовании в качестве основного средства распознавания словаря словоформ вероятность правильного определения грамматических классов находится в интервале от 0,6 до 0,0. Болгарский ученый И. Из-за аналитичности и вытекающих отсвда особенностей болгарского языка использованы более длинные сочетания букв в конце слова. Для полного определения грамматических классов слов в текстах болгарского языка приходится использовать окончания слов длиной от одной до шести букв включительно. Классификационная система содержит грамматических классов. Порядок работы алгоритма следующий. Выделить две последние буквы слова, в таблице двухбуквенных окончаний найти соответствующий им элемент. Если слово распознано как часть речи, то ему приписывается грамматический класс, содержащийся в конкретном элементе таблицы. Работа алгоритма считается на этом законченной. Если в таблице двухбуквенных признаков не нашлось соответствующего элемента, то выделить четыре последние буквы, по которым войти в таблицу четырехбуквенных окончаний. В случае определения класса слова работа алгоритма считается законченной. В противном случае выделить 6 последних букв. В таблице шестибуквенных окончаний найти соответствующий им элемент и приписать слову символ грамматического масса. Приведенный алгоритм успешно применяется для задачи автоматического индексирования текстов с целью выделения информативных слов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.319, запросов: 228