Использование семантических связей в системах анализа текстов на естественном языке

Использование семантических связей в системах анализа текстов на естественном языке

Автор: Назаров, Михаил Александрович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2002

Место защиты: Санкт-Петербург

Количество страниц: 132 с. ил. Прил. (62с. )

Артикул: 2317903

Автор: Назаров, Михаил Александрович

Стоимость: 250 руб.

Использование семантических связей в системах анализа текстов на естественном языке  Использование семантических связей в системах анализа текстов на естественном языке 

Содержание
Введение
1. Обзор литературы
2. Постановка задачи.
3. Краткое содержание диссертации.
Глава 1. Исследование существующих систем анализа текстов
1. Обзор существующих в настоящее время систем анализа текстов на естественном языке
2. Рассмотрение принципов действия классических систем анализа, основанных на ключевых словах, их достоинства и недостатки
3. Анализ причин широкого распространения существующих алгоритмов и построенных на их основе систем понимания текста
4. Выводы.
Глава 2. Исследование семантических связей и их применимости для анализа текстовм
1. Описание общих принципов формализации естественного языка и приведения его к виду, пригодному для точной обработки, без потери смысла исходного текста.
2. Исследование возможностей использования в системах анализа текстов классов слов, получаемых при помощи морфологического анализатора
3. Описание принципов построения семантических связей для слов, составляющих произвольный текст на естественном языке
4. Исследование возможностей использования полученных семантических связей для построения системы анализа текстов
5. Выводы.
Глава 3. Разработка и реализация методики практического использования семантических связей для анализа текстов.
1. Исследование возможностей практического применения теоретических выкладок для систем анализа текстов
2. Описание разработанного универсального ядра обработки семантической информации и предоставления е для внешних программных систем.
3. Описание тестовых программ, использующих разработанное ядро для практической демонстрации использования теоретических методов в реальных условиях
4. Рассмотрение системы электронного архива документов, использующейся для хранения сверхбольших объмов информации.
5. Результаты тестовых испытаний системы хранения, основанной на практическом применении теоретических результатов данной работы
6. Основные отличия разработанной системы от системконкурентов и преимущества, предоставляемые новыми методами анализа текстов.
7. Выводы
Выводы по диссертации в целом.
Литература


Использование же классов слов, совершенно чтко позволит определить, что данный текст релевантен запросу, так как и слово из запроса и большое количество слов из текста относятся к одному классу. На самом деле классы таких слов как планета, относятся к подклассу класса слова космос. Более подробно о подобных ситуациях можно прочитать в . Это позволяет говорить о том, что использование классов слов позволяет кардинально улучшить ситуацию с поисковыми системами, без коренного изменения самого алгоритма работы. В самом простом случае достаточно лишь добавить функцию определения классов и в дальнейшем ссылаться не на исходный текст, а на псевдотекст, который будет создан этой функцией и состоит из номеров классов. Исследуются возможности применения в системах анализа текстов принципиально новых подходов. Для дальнейшего развития алгоритмов обработки текстов, возможно рассматривать уже не сами слова или их классы, а целые предложения. Рассмотрение целых предложений обусловлено необходимостью анализа как самого слова, так и его связей с другими словами в тексте. Язык представляет собой строгую математическую систему, что позволяет говорить о том, что поведение слова в предложении обусловлено некоторой функцией, связанной с этим словом. В качестве аргументов этой функции выступают слова, логически и понятийно связанные с рассматриваемым. Таким образом, предложение в целом можно считать суперпозицией всех функций от слов его составляющих. Этот подход позволяет учитывать контекст, в котором слово присутствует в предложении, и способы, которыми оно воздействует на остальные слова, возможно даже, меняя этим воздействием их смысл. Это действует и в обратном направлении, и слово, функционально связанное с другим, само может поменять смысл от этой связи. Для полного разбора предложения и построения функций слов и суперпозиции всего предложения в исследованиях, которым и посвящена эта работа, использовался морфологический и семантический анализатор, являющийся дальнейшим развитием системы, основанной на исследованиях структуры языка, проведнных доктором наук Тузовым В. А. и автором этой работы. Теоретическое исследование вопроса об использовании внутренней структуры языка для определения функциональных и понятийных связей слов в тексте, привели к необходимости практического эксперимента, целью которого являлось подтверждение или опровержение теоретических выкладок и проверка пригодности разработанного алгоритма для практического использования в реальных системах анализа текстов, таких как системы индексации и поиска документов, системы рубрикации и т. Кроме того, указанное ядро берт на себя и все функции по предоставлению информации, связанной с проанализированным текстом. Сюда входит и количественная информация, такая как количество вхождений слов, так и качественная, такая как использование классов слов или типы используемых связей, для более тонкого определения уровня значения слова в тексте, с учтом того, слабые или сильные связи с другими словами текста являются для него превалирующими. Такая универсальность позволяет использовать указанное ядро как для исследований классических систем, основанных на ключевых словах, так и для оценки систем нового поколения, основанных на семантических связях. Результаты использования разработанного ядра полностью подтвердили теоретические выкладки и предположения о том, что использование семантических связей может качественно улучшить результаты систем анализа текстов. Первоначально, на основе указанного ядра были разработаны несколько тестовых программ, которые использовались в основном, для анализа реальных газетных статей. Качество результатов, получаемых при поиске документа по запросу или при рубрикации превосходит показатели аналогичных систем в среднем на несколько десятков процентов, а в некоторых случаях в разы. Такие результаты дали возможность использовать упомянутые наработки в системе хранения больших объмов информации, разрабатываемой компанией Эврика. Именно использование новых методик, разработанных в процессе написания данной диссертации, и позволило перевести систему хранения документов на новый уровень развития.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.196, запросов: 244