Решение задачи тематического информационного поиска в рунет

Решение задачи тематического информационного поиска в рунет

Автор: Козлов, Дмитрий Дмитриевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2004

Место защиты: Москва

Количество страниц: 76 с. ил.

Артикул: 2738065

Автор: Козлов, Дмитрий Дмитриевич

Стоимость: 250 руб.

Содержание
Введение
Задача тематического информационного поиска в Интернет
Актуальность темы
Цель работы
Метод решения
Структура работы.
1. Существующие средства и методы ИП в Интернет.
1.1 Промышленные ИПС в Интернет
1.1.1 Системы поиска по ключевым словам
1.1.2 Алгоритм .
1.1.3 Классификаторы
1.1.4 Метапоисковые системы.
1.2 Методы тематического ИП в Интернет
1.2.1 Тематические роботы.
1.2.2 Поиск тематических сообществ в
1.2.2.1 Поиск тематических сообществ на основе двудольных графов
1.2.2.2 Поиск тематических сообществ на основе построения клан графа
1.2.2.3 Поиск тематических сообществ на основе максимального потока.
1.2.2.4 Алгоритмы семейства I
1.2.2.5 Алгоритм А.
1.3 Выводы
2. Модель тематического информационного поиска в Интернет
2.1 Традиционная модель информационного поиска
2.2 Анализ задачи тематического ИП в Интернет.
2.2.1 Особенности задачи тематического ИП.
2.2.2 Особенности Интернет как хранилища информации.
2.2.3 Выводы
2.3 Модель тематического ИП в Интернет
2.4 Формальная постановка задачи тематического ИП в Интернет
3. Решение задачи тематического информационного поиска в Интернет
3.1 Общая схема работы системы для тематического ИП в Интернет.
3.2 Общий подход к построению пространства поиска
3.3 Фаза построения пространства поиска
3.3.1 Типы гиперссылок
3.3.2 Типы страниц
3.3.3 Эвристики отбора ссылок.
3.3.4 Построение пространства поиска
3.3.5 Построение графа ресурсов
3.4 Фаза анализа.
3.4.1 Оценка релевантности страниц.
3.4.2 Оценка значимости ресурсов.
3.4.3 Выбор направления поиска.
3.4.4 Предварительный отбор ресурсов для включения в модель темы.
3.4.5 Фильтрация ресурсов по языку и по оценке релевантности.
3.5 Обратная связь.
3.6 Выводы.
4 Экспериментальное исследование подхода.
4.1 Цели и методы экспериментального исследования
4.2 Экспериментальная реализация предложенного алгоритма.
4.3 Результаты экспериментального исследования.
4.3.1 Общие результаты экспериментов.
4.4 Оценка вычислительной сложности
4.5 Выводы.
Заключение.
Литература


Выбор направления поиска. Предварительный отбор ресурсов для включения в модель темы. Фильтрация ресурсов по языку и по оценке релевантности. Обратная связь. Выводы. Экспериментальное исследование подхода. Экспериментальная реализация предложенного алгоритма. Результаты экспериментального исследования. Общие результаты экспериментов. Выводы. Заключение. Литература. С конца -х годов [] применительно к библиотечным системам активно разрабатывались методы решения так называемой традиционной задачи информационного поиска (ИП) [8]. Задача ИП в общем виде1 состоит в том, чтобы в заданном пространстве поиска найти документы, релевантные информационной потребности пользователя, заданной в виде запроса. Частные варианты задачи информационного поиска определяются свойствами пространства поиска и свойствами информационной потребности пользователя. Результат поиска определяется одним запросом. В литературе понятие информационного поиска трактуется широко, однако наиболее распространено определение информационного поиска как "родового понятия для поиска данных, поиска фактов и поиска документов" [4]. По виду объектов поиска задачу ИП делят на фактографический и документальный ИП. В рамках данной работы под информационным поиском подразумевается документальный информационный поиск, то есть поиск документов в заданном массиве в соответствии с критериями, предложенными пользователем. Информационно-поисковой системой, согласно [3], называется программная система для хранения, поиска и выдачи интересующей пользователя информации (в рассматриваемом случае - документов). Такой вариант задачи информационного поиска получил специальное название - тематический ИП. Интернет как пространство поиска не обладает этими свойствами, что существенно меняет задачу ИП в Интернет по сравнению с традиционной задачей ИП. Данная работа посвящена разработке метода решения задачи тематического ИП в Интернет, которая является частным случаем задачи ИП, в котором пространство поиска и информационная потребность пользователя обладают следующими свойствами. Страницы, связанные гиперссылками, образуют граф >УеЬ. Результатом поиска является не только отбор нужных пользователю объектов, но и уяснение им самим своей информационной потребности. Описанные свойства задачи делают невозможным прямое применение существующих наработок в области традиционного ИП для решения задачи тематического ИП в Интернет. В результате, возникает необходимость в разработке новых специализированных методов тематического информационного поиска, в Интернет, учитывающих специфику задачи и обеспечивающих большую • эффективность поиска по сравнению с существующими методами. Интернет - Рунет, однако методы, предложенные в данной работе, применимы и для Интернет в целом. ИП приходится сталкиваться не только профессионалам-библиографам, но и рядовым пользователям. ИП. Для информационного поиска в Интернет в настоящее время наиболее широко используются системы поиска по ключевым словам (СГПСС), например, Google [] или Yandex []. В работах [],[] была обоснована неэффективность применения таких систем для тематического ИП в силу того, что они построены на основе традиционной модели ИП (см. ИП. Наиболее удобным средством для тематического ИП в Интернет являются тематические каталоги. Однако большинство имеющихся в Интернет тематических каталогов строятся вручную экспертами, в результате чего полнота их содержимого и частота обновления не соответствуют темпам развития Интернет. В последние годы исследования тематической структуры Интернет [], [], [] продемонстрировали принципиальную возможность решать некоторые частные случаи задачи тематического ИП в Интернет без предварительной обработки данных (построения базы данных объектов поиска) и без наличия информации об организации предметной области (например, онтологии). Однако методы, предложенные в [],[], не учитывают важных особенностей задачи тематического ИП: они не позволяют пользователю осуществлять поиск итерационно, уточняя информационную потребность в процессе поиска.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.206, запросов: 244