Разработка и исследование методов и системы семантического анализа естественно-языковых текстов

Разработка и исследование методов и системы семантического анализа естественно-языковых текстов

Автор: Мокроусов, Максим Николаевич

Год защиты: 2010

Место защиты: Ижевск

Количество страниц: 185 с. ил.

Артикул: 4900237

Автор: Мокроусов, Максим Николаевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Стоимость: 250 руб.

Разработка и исследование методов и системы семантического анализа естественно-языковых текстов  Разработка и исследование методов и системы семантического анализа естественно-языковых текстов 

ВВЕДЕНИЕ
1 Аналитический обзор методов и систем, основанных па семантических подходах.
1.1 Аналитически обзор методов и систем анализа ЕМтскста.
1.1.1 Методы и системы морфологического анализа.
1.1.2 Синтаксический анализ.
1.1.3 Семантический анализ
1.2. Применение онтологии в анализе естественноязыковых текстов и автоматизированном обучении
1.2.1 Понятие онтологии.
1.2.2 Аналитический обзор существующих систем построения онтологий
1.3 Выводы и постановка задачи исследования.
2 Методика построения онюлогии предметной области текста.
2.1 Построение онтологии предметной области текста, ориентированной на семантическое моделирование
2.1.1 Принципы классификации понятий
2.1.2 Правила классификации и описания понятий
2.1.3 1 равила толкования понятий, основанные на явном описании
2.2 Онтологический толковый словарь как средство описания и хранения понятий
предметной области
2.3 Выводы по главе.
3 Семантический анализ ЕЯтекста.
3.1 Синтаксический анализ текста
3.1.1 Синтаксические модели текста
3.1.2 Система продукционных синтаксических правил.
3.1.3 Контроль синтаксических ошибок
3.2 Семантический анализ текста.
3.2.2 Алгоритм семантического анализа
3.2.1 Семантические модели текста
3.2.3 Сравнение предложенной модели с традиционной семантической сетыо.
3.3. Выводы по главе
4 Экспериментальные исследование разработанных методов
4.1 Онтологический толковый словарь как средство описания понятий предметной
области
4.2 Экспертная система комплексного анализа текста ЭСКАТ.
4.3 Автоматизированная обучающая система .
4.4 Интерактивная обучающая система но русскому языку Интеллект
4.5 Система извлечения данных из текстовых форумов Интернет коммерция
4.6 Подсистема семантического поиска в системе патентнолицензионного поиска
4.7 Выводы по главе
ЗАКЛЮЧЕНИЕ.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК.
Приложение А справочное ТИПИЧНЫЕ СИНТАКСИЧЕСКИЕ ОШИБКИ.
Приложение Б справочное ФРАГМЕНТ СПИСКА ПРАВИЛ СИНТАКСИЧЕСКОГО
АНАЛИЗА
Приложение В справочное РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ СИСТЕМЫ ЭСКАТ
Приложение Г справочное РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ СИСТЕМЫ
Приложение Д справочное АКТЫ ВНЕДРЕНИЯ ИСПОЛЬЗОВАНИЯ ПРОГРАММНЫХ ПРОДУКТОВ
СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ
АОС Автоматизированная обучающая система
лот Автоматическая обработка текста
АРМ Автоматизированное рабочее место
ЬД База данных.
БЗ База знаний
ЕГЭ Единый государственный экзамен
ЕЯ Естественный язык
ИОС Интерактивная обучающая система
КЛ Компьютерная лингвистика
МА Морфологический анализ
ОТС Онтологический толковый словарь
ПО Программное обеспечение
ПрО Предметная область
САПР Система автоматизированного проектирования
СеА Семантический анализ
СеМ Семантическая модель
СиА Синтаксический анализ
СиМ Синтаксическая модель
СУБД Система управления базами данных
СУБЗ Система управления базами знаний
ЭОС Экспертная обучающая система
ЭСКАТ Экспертная система комплексного анализа текста
ЭУ Электронный учебник
ЭФ Экранная форма
ВВЕДЕНИЕ


Цслыо и результатом МА является определение морфологических характеристик слова и его основная словоформа. Перечень всех морфологических характеристик слов и допустимых значении каждой из них зависят от естественного языка. Тем не менее, ряд характеристик например, название части речи присутствуют во многих языках. Результаты морфологического анализа слова неоднозначны, что можно проследить на множестве примеров. Существует три основных подхода к проведению морфологического анализа. Первый подход часто называется четкой морфологией. Для русского языка он основан на словаре Зализняка 3. Второй подход основывается на некоторой системе правил, которые по заданному слову определяют его морфологические характеристики. В противоположность первому подходу, его называют нечеткой морфологией 4. Третий, вероятностный подход 5, основан на сочетаемости слов с конкретными морфологическими характеристиками. Он широко применяется при обработке аналитических языков со строго фиксированным порядком слов в предложении и практически неприменим при обработке текстов на русском языке. Рассмотрим каждый из указанных способов морфологического анализа более подробно. Словарь Зализняка содержит основные словоформы слов русского языка, для каждой из которых указан некоторый код. Известна система правил, с помощью которой можно построить все формы данного слова, отгалкиваясь от начальной словоформы и соответствующего ей кода. Помимо построения каждой словоформы, система правил автоматически ставит ей в соответствие морфологические характеристики. При таком подходе к проведению морфологического анализа заданного слова необходимо найти его в словаре, где уже хранятся точные, окончательно известные значения всех морфологических характеристик заданного слова. Возможно, что для одного и того же входного слова будут храниться сразу несколько вариантов значений его морфологических характеристик. Данным способом не всегда удается воспользоваться, поскольку слова, поступающие на вход, могут не входить в словарь всех словоформ. Такая ситуация может возникнуть изза ошибок в исходном тексте, наличия в тексте специфических слов, заимствованных слов, имен собственных, и т. В случае, когда метод точной морфологии не дает нужного результата, применяется неточная морфология. Целью морфемного анализа 6 слова является разделение слова на отдельные лексемы приставки, корни, суффиксы и окончания. Известно, что множество всех корней слов русского языка открыто, но множество всех возможных приставок, суффиксов и окончаний ограничено. Кроме того, известно, что в любом слове сначала идут приставки, затем корни, далее суффиксы и окончание. Поэтому на основе словаря морфем русского языка можно построить другой словарь, который будет содержать не только разбиение каждого слова на части, но и тип каждой из них. В таком случае, для проведения морфемного анализа слова необходимо обратится к этому словарю. Подобная задача также решена. Морфемный анализ не ограничивается обращениями к словарю. В ситуации, когда слово отсутствует в словаре, возможно непосредственное проведение анализа, на основе стандартного строения слов русского языка приставка корень суффикс окончание и множества всех приставок, суффиксов и окончаний. Когда не удалось определить характеристики слова с помощью методов точной морфологии, но удалось расчленить слово на отдельные части. Наличие тех или иных лексем может определять морфологические характеристики этого слова можно построить систему правил, которая будет опираться на наличие или отсутствие какихлибо частей и выдавать одно или несколько предположений о морфологических параметрах. Данный набор правил можно построить двумя способами. Первый основан на морфемном анализе слов, содержащихся в словаре всех словоформ, и их морфологических характеристик. Задача построения такой системы правил может быть решена с помощью самообучающейся системы некоторого типа. В данном случае могут быть использованы деревья решений 7, I Iiv i i 8 и прочие алгоритмы. Второй подход заключается в формировании набора правил вручную.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.247, запросов: 244