Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы

Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы

Автор: Волков, Сергей Сергеевич

Год защиты: 2002

Место защиты: Краснодар

Количество страниц: 180 с.

Артикул: 2318836

Автор: Волков, Сергей Сергеевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Стоимость: 250 руб.

Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы  Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ.
1 СОСТОЯНИЕ ВОПРОСА. ОБЗОР И АНАЛИЗ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ
1.1 Общие принципы построения и структура информационнопоисковой
СИСТЕМЫ.
1.2 Информационнопоисковые языки.
1.2.1 Логический поиск
1.2.2 Взвешенный поиск
1.2.3 Линейная модель индексирования и поиска.
1.2.4 Поиск в нечетких множествах.
1.2.5 Пороговые модели
1.2.6 Кластерная модель.
1.2.7 Вероятностная модель
1.2.8 Коррекция запроса по релевантности
1.2.9 Поиск по смыслу.
1.2. Поиск по шаблону.
1.2. Итеративный поиск
1.3 Формальные модели естественного языка.
1.3.1 Общие сведения
1.3.2 Средства смыслоотождествления в ИПС.
1.3.3 Классификация ИПЯ.
1.3.4 Эволюция информационнопоисковых языков.
1.4 Программные системы для поиска информации.
1.4.1 Документальная ИПС Артефакт.
1.4.2 Система
1.4.3 x i
1.4.4 xi iv .
1.4.5 X.
1.4.6 Япйех.
1.4.7 Евфрат
1.5 Сравнение существующих поисковых систем и обоснование необходимости разработки
1.6 Постановка задачи.
1.7 Выводы
2 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПОСТРОЕНИЯ ИНТЕЛЛЕКТУАЛЬНОЙ ИНФОРМАЦИОННОПОИСКОВОЙ СИСТЕМЫ.
2.1 Семантикосин гаксический анализ и синтез текстов на естественных языках
2.1.1 Семантикосинтаксическая структура текстов
2.1.2 Элементы структурной лингвистики
2.1.3 Синтаксический анализ текстов.
2.1.4 Определение значимости слов на основе законов Цитра.
2.1.5 Иерархическая векторная модель представления документов в информационном поиске.
2.2 Лингвистический процессор
2.2 1 Блок лексического анализа
2.2.2 Блок морфологического анализа
2.2.3 Блок синтаксического анализа.
2.2.4 Блок семантического анализа
2.3 Вероятностный синтаксический анализ
2.3.1 Структурные и вероятностные методы анализа.
2.3.2 Вероятностные КСграмматики
2.3.3 Метод генетических алгоритмов
2.3.4 Метод распознавания образов
2.3.5 Метод дерева решении.
2.3.6 Алгоритм вероятностного синтаксического анализа
2.4 Выводы
3 РАЗРАБОТКА И СОЗДАНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ ПОИСКОВОЙ СИСТЕМЫ.
3.1 Индексирование документов.
3.1.1 Система индексирования .
3.1.2 Анализ и классификация способов индексирования
3.2 Файловые структуры для хранения и поиска информации.
3.2.1 Основная терминология при описании структур файлов
3.2.2 Последовательные файлы.ПО
3.2.3 Инвертированные файлыПО
3.2.4 Индекснопоследовательные файлы.
3.2.5 Мультисписки
3.2.6 Ячеистые мультисписки.
3.2.7 Кольцевые структуры.
3.2.8 Заплетенные списки
3.3 Выбор и обоснование языка программирования
3.4 Алгоритмическое и программное конструирование интеллектуальных систем для поиска информации.
3.4.1 Общие положения.
3.4.2 Нахождение начальной формы слова
3.4.3 Нахождение неключевых слов
3.4.4 Объекты для нахож дения синонимов.
3.4.5 Реализация поиска в базе данных документов
3.4.6 Реализация интеллектуальной надстройки к поисковым машинам сети Интернет
3.4.7 Конструирование пользовательского интерфейса
3.5 Руководство пользователя
3.5.1 Требования к оборудованию и установка программы.
3.5.2 Запуск программы
3.5.3 Основное окно программы.
3.5.4 Ввод запроса
3.3.5 Задание области поиска
3.5.6 Поиск документов.
3.5.7 Выдача результатов
3.6 Выводы
4 ОЦЕНКА ЭФФЕКТИВНОСТИ РАБОТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ПОИСКОВОЙ СИСТЕМЫ
4.1. Эффективность и релевантность поиска.
4.1.1 Качество информационнопоисковых систем
4.1.2 Методы улучшения качества поиска.
4.1.3 Эффективность поиска.
4.2 Тестирование интеллектуальной ИПС.
4.2. 1 Тестирование эффективности поиска
4.2.2 Поиск документов . .
4.2.3 Поиск электронных таблиц x
4.2.3 Поиск страниц
4.2.4 Тестирование скорости поиска.
4.3 ВЫВОДЫ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ


По исследованиям СошрТек 1МегпаПопа1, примерно четверть слов русского языка имеет чередования, которые не позволяют найти слово но шаблонам: (искать-ищу, окно-окон, расти-рос: запрос и* или ок* или р* даст много нерелевантных документов). Короткие (три-четыре буквы) слова: дом, хор, . Во всех языках, в том числе и в русском, имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона в коротких словах приводит к большому количеству ненужных ссылок в списке найденных документов. Таким образом, дальнейшее содержательное развитие ИПС невозможно без их интеллектуализации с использованием словарей, рядов синонимов, тезаурусов слов. Именно создание подобной системы являлось целью данной работы. В следующих разделах подробно рассматриваются теоретические основы построения составных блоков интеллектуальной ИПС: блока преобразования запроса, определения весовых коэффициентов слов запроса, блока индексирования и поиска. В настоящее время мощность документных потоков возросла настолько, что ощущается потребность в нетривиальных языковых средствах, которые вернули бы результатам поиска "человеческие" масштабы. В сферу электронного документооборота и информационного поиска как в сети Интернет, так и в локальных сетях, на полных правах вошел естественный язык - по сути, много разных естественных языков. И это также требует развития специальных средств обработки есгсственно-языковой информации. Главная задача информационно-поисковой системы - поиск информации, релевантной информационным потребностям пользователя. Под релевантностью понимают соответствие между желаемой и получаемой информацией. Релевантность можно представить также как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Возникают две взаимосвязанные задачи: представление информации в системе и формулирование информационных потребностей пользователя [|. Наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему векторной модели, в которой документ выдается в виде набора терминов, то есть имеется не весь текст документа, а только небольшой набор терминов, отражающий его содержание [9] []. Отталкиваясь от такого представления о документе, рассмотрим различные информационно-поисковые языки и определим степень развития информационно-поисковых средств, используемых в Интернет и локальных поисковых машинах. Наиболее распространенным является язык, позволяющий составить логические выражения из набора терминов. При этом используются логические операторы AND, OR, NOT. Эта фраза означает: <Найди все документы, которые содержат одновременно слова "информационная" и "система”, либо слово "ИПС", но не содержат слова ”СУБД">. СУБД". Такая схема достаточно проста и поэтому наиболее широко применяется в современных ИПС, однако еще лет назад уже были хорошо известны ее недостатки. Логический поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, выдаваемых на запрос. При этом все будет зависеть от тою, насколько типичными для базы данных являются поисковые термины. Оператор OR, напротив, может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким поисковым языком создаются специальные документально - лексические базы данных со сложными словарями или тезаурусами, содержащими информацию о связи терминов словаря друг с другом. AND, NOT, и вложенных инструкций). Ввод запроса более труден и отнимает больше времени, чем запросы, написанные на естественном языке, так как логические операторы требуют правильного синтаксиса. Процесс поиска почти мгновенный, так как не выполняется ни ранжирование, ни автоматическое расширение, однако может потребоваться более длительный просмотр возвращенных документов, так как наиболее подходящие документы могут находиться где-нибудь в середине списка найденных документов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.373, запросов: 244