Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет

Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет

Автор: Тихомиров, Илья Александрович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 170 с. ил.

Артикул: 3028013

Автор: Тихомиров, Илья Александрович

Стоимость: 250 руб.

Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет  Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет 

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ.
Актуальность темы.
Новизна.
Цель работы.
Методы исследования.
Научная новизна.
Практическая значимость работы
Апробация работы
Структура и объм диссертации.
1. СУЩЕСТВУЮЩИЕ ПОИСКОВЫЕ СИСТЕМЫ И ИХ ОГРАНИЧЕНИЯ .
1.1. Задача поиска и методы оценки качества поиска
1.2. Существующие поисковые системы
1.2.1. Традиционные системы глобального поиска.
1.2.2. Метапоисковые системы.
1.2.3. Поисковые утилиты рабочегостола.
1.2.4. Системынадстройки над существующими продуктами
1.2.5. Системы глобального поиска с функциями семантической обработки текстов
1.3. Причины низкой точности и полноты поиска в современных поисковых системах.
1.4. Выводы
1.5. Формулировка задач исследования.
2. ПРИМЕНЕНИЕ СРЕДСТВ МЕТАПОИСКА ДЛЯ ПОВЫШЕНИЯ ПОЛНОТЫ ПОИСКА
2.1. Полуавтоматическое распознавание интерфейсов поисковых ресурсов.
2.2. Теоретикомножественное описание ДСМметода.
2.3. Применение ДСМметода для распознавания интерфейсов поисковых ресурсов.
2.4. Выводы
3. ПРИМЕНЕНИЕ ЭЛЕМЕНТОВ ТЕОРИИ КОММУНИКАТИВНОЙ ГРАММАТИКИ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ПОИСКА
3.1. Семантический поиск и элементы теории коммуникативной грамматики.
3.2. Принципы семантической обработки текстов
3.3. Модель текста в виде семантической сети.
3.4. Выводы
4. РАЗРАБОТКА И РЕАЛИЗАЦИЯ ОСНОВНЫХ НАУЧНОТЕХНИЧЕСКИХ РЕШЕНИЙ СИСТЕМЫ СЕМАНТИЧЕСКОГО МЕТАПОИСКА
4.1. Основные научнотехнические решения.
4.1.1. Режим настройки на поисковые ресурсы
4.1.2. Режим семантического метапоиска.
4.1.3. Описания модулей системы
4.2. Методика оценки эффективности работы поисковой системы
4.3. Описание экспериментальной установки для оценки точности
ПОИСКА.
4.4. Результаты экспериментов оценки точности поиска.
4.5. Результаты оценки качества работы модуля метапоиска.
4.6. Оценка надежности разработанной системы.
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ


На втором этот список через веб-сервер передается архивным серверам. Они извлекают заголовки страницы и сниппеты — те куски текста, которые содержат наибольшее количество ключевых слов. Вся эта информация возвращается веб-серверу, ион формирует «выдачу»— ту HTML-страницу с результатами, которая предъявляется пользователю. Поисковая машина КМ. КМ осуществляет поиск по русскоязычному сегменту сети Интернет и включает поиск по страницам, файлам, картинкам и каталогу сайтов. Объем проиндексированной информации составляет около 1 терабайта. Конфигурация одного КМ-сервера равна конфигурации одного сервера среднего уровня. На серверах используется операционная система Windows. Сервера разбиты на две группы - основные и индексирующие. Во время поиска пользователям доступны сервера основной группы. Каждый сервер хранит информацио об определенном сегменте сети Интернет. После обработки запроса результаты поиска с серверов основной группы агрегируются и выдаются пользователю. Как только проходит очередной этап индексации, сервера из индексирующей группы становятся основными. Таким образом поддерживается актуальность данных на серверах. В поисковой системе реализован механизм определения релевантности, основанный на анализе заголовков, ключевых слов и содержимого страницы. Мегаэнциклопедии и торгово-информационной системе Shopping. Также для удобства пользователей возможен отдельный поиск по статьям и новостям всех тематических порталов КМ. В проекте реализован механизм расширенного поиска, который позволяет пользователю ограничивать поиск необходимой информации по заданным тематикам. На КМ внедрен механизм ссылочного ранжирования, сервис статистики запросов, метод исключения из индекса сайтов за поисковый мусор и спам. Метапоисковая система - поисковый инструмент, посылающий запрос одновременно на несколько поисковых систем, каталогов и, иногда, в так называемую, невидимую (скрытую) часть сети - собрание онлайновой информации, не проиндексированной традиционными поисковыми системами. Собрав результаты, метапоисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет/ранжирует результаты в общем списке. В метапоисковых системах могут применяться функции предварительной обработки поискового запроса и лингвистические алгоритмы для ранжирования результатов [, ]. В отличие от традиционных поисковых систем, большинство метапоисковых систем не имеют собственных баз данных и не регистрируют URLbi сайтов. On-line системы доступны пользователям Интернет через обыкновенный веб-браузер и предоставляют сервис по поиску сразу в нескольких традиционных поисковых системах или каталогах. Метапоисковые утилиты рабочего стола являются отдельными приложениями, устанавливаемыми на персональный компьютер пользователя. Они предоставляют пользователю сервис, аналогичный глобальному метапоиску с возможностями персональной настройки поисковых параметров, в том числе - сервис по настройке на новые поисковые системы с использованием методов машинного обучения. Оба типа метапоисковых систем очень близки и отличаются в общем случае только типом клиента: для глобальных метапоисковых систем это WEB-браузер, для утилит рабочего стола - WIN приложение или WEB-браузер. В качестве примера метапоисковой on-line системы рассмотрим www. Метапоисковая система Nigma. В Nigma реализованы механизмы переранжирования результатов поиска набора поисковых систем с поддержкой русской морфологии и двухуровневая кластеризация найденных документов. Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены все распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, алгоритм Nigma не сокращает, а наоборот - увеличивает количество найденных документов, т. Релевантность увеличивается, т. Результаты поиска объединяются с помощью специального алгоритма, причем только те результаты, которые Nigma успевает получить от поисковых систем за 1-5 секунд.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.247, запросов: 244