Программное обеспечение для метапоиска информации в гипертекстовой среде

Программное обеспечение для метапоиска информации в гипертекстовой среде

Автор: Крищенко, Всеволод Александрович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2002

Место защиты: Москва

Количество страниц: 144 с. ил

Артикул: 2332167

Автор: Крищенко, Всеволод Александрович

Стоимость: 250 руб.

Программное обеспечение для метапоиска информации в гипертекстовой среде  Программное обеспечение для метапоиска информации в гипертекстовой среде 

СОДЕРЖАНИЕ
Введение
1. Анализ методов и систем поиска в гипертекстовых документах
1.1. Особенности существующих метапоисковых систем
1.2. Методы извлечения информации из неформальных документов
1.3. Сравнения слов естественного языка.
1.4. Анализ предложения ограниченного естественного языка.
1.5. Выводы по первой главе.
2. Сравнение предложений естественного языка.
2.1. Схема сравнения предложений естественного языка
2.2. Морфологический анализ, используемый метапоисковой системой
2.3. Формальная грамматика предложения естественного языка
2.4. Синтаксический анализ с использованием управляющих таблиц
2.5. Модифицированный алгоритм построения ЬК1таблиц
2.6. Синтаксический анализатор предложения на основе Ы11 таблиц.
2.7. Возможности уменьшения неоднозначности грамматики
2.8. Синтаксический анализ без использования управляющих таблиц.
2.9. Представление матрицы синтаксического анализатора предложения
2 Модель представления синтаксиса предложения.
2 Критерий сходства предложений естественного языка.
2 Определение степени соответствия предложения и текста.
2 Выводы по второй главе
3. Метод извлечения информации из поисковых систем.
3.1. Обмен информацией с поисковыми системами при метапоиске
3.2. Передача запроса пользователя вебузлу поисковой системы.
3.3. Структура выходной информации поисковой системы
3.4. Анализ гипертекстовых страниц со списком найденных документов
3.5. Алгоритм поиска повторяющихся подстрок.
3.6. Результаты экспериментов по извлечению информации из поисковых систем.
3.7. Поиск документов по ссылкам
3.8. Выводы по третьей главе
4. Метапоисковое программное обеспечение
4.1. Назначение программы и требования к вычислительной системе
4.2. Функциональная схема программного обеспечения
4.3. Форматы используемых файлов данных.
4.4. Сравнение с существующими метапоисковыми системами.
4.5. Сравнение с поисковыми системами.
4.6. Выводы по четвертой главе
Заключение
Литература


Целыо работы является разработка программного обеспечения для метапоиска текстовой информации в гипертекстовой среде, позволяющего интегрировать несколько поисковых систем, проверять соответствие документов запросу пользователя на основе анализа естественного языка и вести поиск по найденным в документах ссылкам. Разработка программного обеспечения в диссертации основана на решении следующих основных задач. Создание метода извлечения информации о найденных по запросу пользователя документах из существующих информационно-поисковых систем. Анализ существующих методов извлечения информации, разработанных С. Хсу [], Н. Кушмериком [], а также реализованных в различных метапоисковых программных продуктах, дан в первой главе. В третьей главе предложен алгоритм извлечения ссылок на документы метапоисковой системой. Разработка критерия формального соответствия запроса пользователя и документа на естественном языке, основанном на синтаксическом анализе. Выбор метода синтаксического разбора естественного языка и его модификация для применения к анализу документов в гипертекстовой среде. Разработка алгоритма сравнения запроса пользователя и предложения на естественном языке. Применимость методов анализа ограниченного естественного языка к задаче поиска информации исследуется в первой главе работы. Алгоритм сравнения предложений на основе анализа естественного языка описан во второй главе. Полученные результаты лежат в рамках направления, развиваемого М. Гаррисоном, С. Грехам [, ] и М. Томитой []. Создание программного средства - метапоисковой системы. Разработанное программное обеспечение описывается в четвертой главе. Методы исследования. В диссертации применяются методы дискретной математики, теории формальных грамматик и формальных языков. Научная новизна работы. Предложен метод анализа содержимого документов с текстовой разметкой, основанный на выделении повторяющихся конструкций языка разметки. Произведена модификация двух существующих методов разбора контекстно-свободных формальных языков для их применения в предложенной схеме сравнения предложений естественного языка. Разработана форма представления предложения естественного языка, методика ее получения из дерева вывода и основанный на ней алгоритм сравнения предложений. Основные результаты работы. Предложен алгоритм выделения данных с результатами поиска из поисковых систем интернета на основе анализа повторяющихся конструкций гипертекстовой страницы. Даны теоретические и эмпирические оценки затрат времени, необходимого для обработки результатов работы поисковых систем. В разработанном метапоисковом программном обеспечении использован механизм выделения релевантных документов на основе синтаксического анализа предложений естественного языка. Предложена модификация способа построения ЬЯ-таблиц для их использования в модифицированном алгоритме ЬЯ-разбора и модификация метода Эрли для неоднозначных грамматик. Для разработанных методов оценены временные затраты на разбор структуры предложения на ограниченном естественном языке и область применимости при разборе предложений естественного языка. Предложен вариант дерева предложений, пригодный в качестве модели синтаксической структуры для сравнения предложений. Разработан алгоритм построения такого дерева предложения из дерева вывода, построенного синтаксическим анализатором. Разработан метод сравнения деревьев двух предложений, даны критерии сходства запроса пользователя и просматриваемого текста на естественном языке. Практическая и теоретическая ценность. Полученные результаты позволяют извлекать информацию из большинства существующих поисковых систем и осуществлять синтаксический разбор предложений естественного языка с учетом его применения для поиска информации в глобальных сетях. Практическим результатом работы является программное обеспечение для метапоиска информации в интернет, внедренное в БЕН РАН, о чем имеется соответствующий акт. Апробация результатов работы. Результаты диссертации докладывались в и годах на третьем и четвертом научно-практических семинарах "Новые электронные технологии" в МГИЭМ (г. Москва), и на восьмой международной конференции "Математика, компьютер, образование" ( г. Пущино). Публикации. Основные результаты диссертационной работы опубликованы в пяти печатных трудах.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.199, запросов: 244