Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке

Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке

Автор: Аюшеева, Наталья Николаевна

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2004

Место защиты: Улан-Удэ

Количество страниц: 228 с. ил.

Артикул: 2743024

Автор: Аюшеева, Наталья Николаевна

Стоимость: 250 руб.

Содержание
Введение
1. Введение в проблему и анализ моделей поисковых систем.
1.1. Описание проблемной ситуации.
1.2. Обзор информационнопоисковых систем.
1.3. Обзор методов индексирования.
1.4. Обзор методов поиска и ранжирования документов.
1.5. Обзор методов и средств создания метакаталогов.
1.5.1. Обзор методов создания метакаталогов
1.5.2. Краткий обзор средств.
1.5.3. Средства и технологии хранения
1.6. Выводы по главе и содержательная постановка задачи.
2. Модель метакаталога информационных образовательных ресурсов
2.1. Схема спецификаций метаданных
2.1.1. Классификация ИОР.
2.1.2. Обзор существующих спецификаций метаданных
2.1.3. Метаданные ИОР
2.2. Логическая модель данных.
2.2.1. Именование объектов логической модели.
2.2.2. Сущности
2.2.3. Атрибуты
2.2.4. Связи отношения.
2.2.5. Нормализация
2.2.6. Методы обеспечения целостности данных.
2.3. Традиционные методы поиска.
2.3.1. Атрибутный поиск
2.3.2. Контекстный поиск по ключевым словам
2.3.3. Атрибутноконтекстный поиск
2.6. Выводы по главе.
3. Модель поиска
3.1. Структурная схема модели поиска.
3.2. Построение поискового образа документа
3.2.1. Препроцессорная обработка полнотекстового документа
3.2.2. Индексирование полнотекстового документа
3.3. Определение релевантности и ранжирование коллекции документов.
3.3.1. Распознавание запроса и построение поискового образа запроса
3.3.2. Формирование множества релевантных документов
3.4.3. Кластеризация множества релевантных документов
3.4. Выводы по главе
4. Описание программного обеспечения.
4.1. Программа по работе с метакаталогом
4.2. Программа Ixi.
4.2.1. Краткое описание алгоритма
4.2.2. Экспериментальная проверка метода построения поискового образа документа в виде его семантической сети
4.3. Программа .
4.4. Выводы по главе.
Выводы по работе.
Заключение.
Список литературы


Концепция распределенного поиска отдаленно напоминает поиск с помощью метапоисковых систем. Вместе с тем их нельзя путать, поскольку при организации распределенного поиска задействована одна подсистема тогда, когда в метапоисковых системах отклик на запрос пользователя представляет собой результат поиска всеми поисковыми системами, к которым обращается ядро метапоисковой системы. Поисковые машины с полнотекстовым индексом учитывают все слова в текстовом документе, которые даже могут и не отражать смысл документа. Абстрактные машины, работающие с другими типами индексов, используют сложные эвристические методы для определения темы документа и выделения ключевых слов, адекватно характеризующих его смысл. Существующие алгоритмы индексирования, например формирование индекса по определенным полям, позволяют не только ускорить процесс поиска, но и добиться высокого показателя релевантности. Так, например, поисковая система Lycos (www. Lycos, Inc. Carnegie Mellon University) с помощью оригинального алгоритма, основанного на использовании специальных методов статистического анализа, довольно успешно решает задачу определения, какие слова в документе относятся к его тематике, а какие нет. Благодаря этому даже простой поиск на Lycos, как правило, дает высокорелевантные результаты. Среди множества информационно-поисковых систем, работа которых связана с индексированием, можно выделить подмножество поисковых машин, выполняющих классификацию информации [, , , ]. Под этим термином понимают процесс определения категории, к которой относится документ. Алгоритмы классификации заложены в таких системах, как Infoseek (www. L Excite (www. HotBot (www. Каждая из них имеет каталог, в котором можно найти лучшие страницы но интересующей пользователя тематике. Идея тематических «каналов», являющихся разделами каталога, впервые была введена разработчиками поисковой системы Excite, а затем успешно использовалась другими поисковыми службами. Поисковые машины, классифицирующие информацию, представляют класс ИПС более высокого уровня. Метод индексирования, оказывающий непосредственное влияние на используемый метод поиска, является одним из необходимых критериев, по которому можно производить классификацию поисковых машин. Построение индексов методом бинарного индексирования (хешированные индексы, В-деревья, Т-деревья) предпочтительнее вследствие своей контекстной и языковой независимости. При таком индексировании поиск ведется на основе алгоритмов “нечеткого поиска”, т. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном запроса. Морфологическое индексирование производится с учетом морфологии и семантики языка, что делает данный метод контекстнозависимым. При использовании данного метода слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов. Направление «ключевого» индексирования является дальнейшим развитием индексирования но всему документу. Данный метод значительно сокращает объем индекса, что положительно влияет на время поиска. Исследования таких ученых как в. БаИоп, б. К^рГ и др. В данной работе рассматривается метод индексирования по ключевым словам в комбинации с морфологическим индексированием. Отметим, что множество методов индексирования, основанных на дескрипторных информационно-поисковых языках, невозможно отнести к какому-либо классу указанной классификации. Кроме того, между вторым и третьим классами нет принципиальных различий. Поэтому эта классификация не получила должного распространения. Дальнейшим развитием вышеприведенной классификации является классификация, предложенная в работе Совер Н. Б. и основанная на структуре поисковых образов документов. В первой группе методов различают статистические, лингвистические методы и их комбинации. Статистические методы учитывают статистические критерии текста документа: частоту встречаемости терминов в документе, распространенность терминов в коллекции документов и т.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.210, запросов: 244