Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова

Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова

Автор: Григорьев, Александр Сергеевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 160 с.

Артикул: 3042132

Автор: Григорьев, Александр Сергеевич

Стоимость: 250 руб.

Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова  Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова 

СОДЕРЖАНИЕ
Стр.
Введение.
1. Аналитический обзор методов и стратегий поиска текстовой информации. Системы обработки текста документов.
1.1. Задача поиска по текстам документов
1.2. Классификация методов полнотекстового поиска.
Методы классического поиска без использования контекстной
информации.
Использование контекстной информации
2. Метод поиска.
2.1. Описание метода обработки статистической сочетаемости слов
2.2. Статистическое выявление устойчивых сочетаний слов
2.3. Объединение схожих по написанию форм слов.
2.4. Обработка данных о статистической сочетаемости слов.
2.5. Группирование текстов по спискам устойчивых сочетаний слов
2.6. Выполнение естественноязыкового поискового запроса.
Краткие выводы
3. Алгоритмы обработки текста документов и запросов, реализующие метод поиска
3.1. Подготовка документов к обработке и их хранение.
3.2. Заполнение словаря
3.3. Статистическое выявление устойчивых сочетаний слов
3.4. Обработка данных о статистической сочетаемости слов.
3.5. Группирование текстов по спискам связности слов.
3.6. Определение соответствия текста поисковому запросу
4. Программная реализация поискового метода и ее испытания
4.1. Описание программной реализации.
4.2. Описание тестового набора текстов.
Стр.
4.3. Определение эмпирических пороговых значений и коэффициентов
4.4. Экспериментальные оценки требуемых ресурсов при реализации
разработанного метода
4.5. Оценка качественных и количественных показателей разработанного метода поиска.
4.6. Сравнительная оценка ресурсоемкости разработанной поисковой
системы
Краткие выводы.
Основные выводы
Список литературы


Проведено сравнение результатов поиска разработанным программным комплексом с результатами, полученными экспертами. Полученные результаты позволяют говорить о повышении качества поиска предлагаемым методом обработки статистической сочетаемости слов по сравнению с классическим методом поиска. Практическим результатом работы является реализация метода в виде конечного программного продукта, позволяющего выполнять полнотекстовый поиск по запросам на ЕЯ. Программное обеспечение внедрено и используется в рамках единой Автоматизированной Библиотечной Информационной Системы МГТУ им. Н.Э. Баумана, что подтверждается соответствующим актом. В подтверждение положения о независимости разработанного подхода от используемого в текстах языка созданные методы, алгоритмы и модели успешно опробованы при создании системы обработки текстов византийских документов на древнегреческом языке для описания использованных в них терминов. Результаты проведенного исследования опубликованы в 6 печатных работах. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ И СТРАТЕГИЙ ПОИСКА ТЕКСТОВОЙ ИНФОРМАЦИИ. В настоящее время анализ ЕЯ текстов и запросов наибольшим образом распространен в Информационно-Поисковых Системах (ИПС), хранящих и обрабатывающих справочники документов, содержащих тексты на ЕЯ. Например, при поиске по юридическим документам, традиционно имеющим текстовое представление, существует потребность в обработке предложении естественного языка. Справочникам таких систем, как ИПС «Гарант» [], других юридических справочников [0], желательно иметь средства ЕЯ поиска по документам. Задача поиска по тексту электронных документов решается при создании Электронных Библиотек (ЭБ), в частности, в АБИС библиотеки МГТУ им. Н.Э. Баумана []. Некоторые предприятия организуют хранение всей документации в централизованном электронном хранилище, созданном как ЭБ. Многие организации строят системы хранения корпоративных баз знаний с использованием механизмов полнотекстового ЕЯ поиска (например, интеллектуальные системы поддержки принятия решений фирмы С^поб [8], или управляющая система Ые^еШБ []). Задача поиска по текстам документов Для сравнения подходов к выполнению полнотекстового поиска требуется дать формализованное описание задачи поиска по тексту на ЕЯ. Методы и подходы к решению этой проблемы классифицируются по способам реализации отдельных звеньев поставленной задачи. При рассмотрении каждой практической реализации важнейшими являются вопросы оценки достаточности и достоверности полученной информации. Для этого вводятся критерии качества поиска, то есть соответствия множества найденных документов пользовательскому запросу на ЕЯ. Естественный Язык ? IV и набором связей С, объединяющих эти слова в осмысленные обороты и предложения. Таким образом, Ь=<1? Используемый профессором гуманитарного ВУЗа язык существенно отличается от языка, на котором говорит профессор технического. При этом оба «языка» представляют собой примеры наиболее грамотного и чистого русского языка в культурологическом представлении. С такой точки зрения каждый человек использует свой персональный язык. При выполнении поиска такое абстрагирование корректно, так как автор запроса к поисковой системе формулирует запрос на диалекте того же профессионального Языка, который использован в искомых текстах. Для описания культурологического понятия язык вводится термин «Суперязык». Суперязык объединяет под собой множество Языков I в масштабах одной культуры или цивилизации, определяющих правила словообразования и связывания слов [, ]. Пусть дано множество текстов Т на естественном языке ? Г(? Для каждого текста /еГ строится некоторая структура М1у описывающая слова и^е РУ, этого текста (VfeiW) и связи с,еС, слов между собой (С,с:С). Отдельные слова из множества IV могут быть представлены различными способами. Обычно слово приводится к нормальной форме, так как она отражает смысл всех соответствующих слову словоформ []. Реже используется представление, при котором каждая словоформа является отдельной единицей языка. Существует множество запросов (9, адресуемых поисковой системе.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.582, запросов: 244