Методы информационного поиска тематических сообществ в Веб-пространстве

Методы информационного поиска тематических сообществ в Веб-пространстве

Автор: Блеканов, Иван Станиславович

Год защиты: 2011

Место защиты: Санкт-Петербург

Количество страниц: 122 с. ил.

Артикул: 4976735

Автор: Блеканов, Иван Станиславович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Стоимость: 250 руб.

Методы информационного поиска тематических сообществ в Веб-пространстве  Методы информационного поиска тематических сообществ в Веб-пространстве 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ.
1. Технические задачи информационного поиска.
2. Поиск в Вебпространстве
3. Постановка задачи данной работы
4. Цель работы
5. Основные задачи работы.
6. Положения научной новизны
7. Результаты.
ПРЕДСТАВЛЕНИЕ ВЕБПРОСТРАНСТВА
1.1. Структура Вебграфа
1.2. Степенной закон распределения гиперссылок в Вебфафе.
1.3. Обход ВебГрафа
1.4. Выводы.
ВЕБКРАУЛЕРЫ В ИНФОРМАЦИОННОМ ПОИСКЕ
2.1. Критерии эффективной работы Вебкраулера.
2.2. Архитектурные особенности Вебкраулеров
2.3. Архитектура Вебкраулера с универсальным ядром и ее реализация
2.4. Поиск и обновление значимых Вебстраниц
2.4.1. Метрики значимости Вебстраниц.
2.4.2. Типы Вебкраулеров.
2.4.3. Обновление Вебстраниц.
МЕТОДЫ И МОДЕЛИ ИНФОРМАЦИОННОГО ПОИСКА.
3.1. Модель документа
3.2. Модель на множестве слов
3.2.1. Проблемы выделения слов в документе.
3.2.2. Модель па стемминге документа.
3.2.3. Модель на взвешивании слов документа
3.3. Модель с использованием пар слов
3.4. Семантическая модель документа
3.5. Модель на анализе гиперссылок.
3.5.1. Модель на алгоритме Клейнбсрга I.
3.5.1.1. Построение фокусированного Вебграфа в I алгоритме.
3.5.1.2. Вычисление индексных и авторитетных источников информации
3.5.2. Модель на алгоритме
3.5.2.1. Стандартный .
3.5.2.2. Модифицированный
3.5.2.3. Итеративное вычисление
ОЦЕНКА КАЧЕСТВА ИНОРМАЦИОННОГО ПОИСКА.
4.1. Базовые метрики оценки качества.
4.2. Дополнительные метрики оценки качества
4.3. точечный график полноты и точности.
4.4. Стандартные тестовые коллекции
4.5. Выводы
РЕАЛИЗАЦИЯ
5.1. Реализация тематического Вебкраулера.
5.1.1. Тематический Вебкраулер на основе I взвешивания
5.1.2. Тематический Вебкраулер на основе алгоритма I
5.1.3. Тематический Вебкраулер на основе совместного использования алгоритма I и взвешивания I.
5.2. Сравнение с аналогами.
5.3. Среда разработки
5.4. Выводы
ЭКСПЕРИМЕНТ
6.1. Описание эксперимента
6.2. Результаты эксперимен та.
6.3. Выводы.
СПИСОК ЛИТЕРАТУРЫ


В связи с отсутствием контроля качества, большая часть информации является устаревшей, неверной, некорректной, содержит множество различных ошибок (опечатки, грамматические ошибки, ошибки оцифровки). Наблюдается многократное дублирование информации (например, публикация одного и того же сообщения в разных изданиях) [, , ]. Поисковой машиной Яндекс, например, на данный момент проиндексировано более 0 миллионов различных Всб-страниц. Для общемировых поисковых систем, таких как Google, эта цифра заметно выше [ , , ]. Новые информационные ресурсы очень быстро появляются, меняют свое местоположение, удаляются, изменяют свое содержание. Согласно некоторым оценкам ежемесячно меняется около % информации, среднее время жизни половины страниц в Веб-пространстве не превышает дней [, ]. Информация представлена в различных форматах, только текстовая информация представлена на десятках разных языков, в разных алфавитах и системах кодирования [, , ]. Исследование природы и специфики Веб показало, что в данном пространстве происходят процессы самоорганизации. Данный факт стал причиной появление целого класса новых подходов к описанию структуры Веб-пространства и решению задач поиска информации в нем, что существенным образом, с учетом выявленных особенностей, позволило расширить спектр возможностей поисковых систем и заметно повысить их эффективность. В настоящее время разработан ряд методов информационного поиска. Алгоритм Клейнберга и его модификации, PageRank алгоритм предназначены для ранжирования результатов поиска в индексе поисковой машины. Алгоритм TF-IDF и его модификации, алгоритмы латентно-семантического анализа, используемые для полнотекстового поиска в коллекции документов. Существующие системы поиска информации в Веб-пространстве условно можно разделить на два класса по признаку наличия собственного индекса, хранящего информацию о документах, опубликованных в сети. Например, поисковые машины Google, Yahoo, MSN на западном рынке и Яндекс, Рамблер на российском имеют собственный индекс. В то время как Quintura (http://wvvw. Grokker (http://www. Metacrawler (http://www. Такие системы перенаправляют запросы пользователя в другие системы (одну или несколько) и выполняют дополнительную обработку результатов. Тем не менее все перечисленные системы поиска в Вебпространстве не вполне удовлетворяют информационным потребностям современного пользователя. Во-первых, это недостаточная свежесть информации. Она возникает из-за того, что эти системы выполняют два вида работ: модификация индекса и поиск информации по запросам пользователей в индексе. Модификация индекса занимает большое количество времени (дни), что существенным образом снижает свежесть источников информации в Веб-пространстве. Во-вторых, ранжирование результатов поиска, существующих систем, основано на авторитетности в индексе документов и формальной близости к запросу пользователя. Отсутствие поиска по ссылкам в глубину часто приводит к ошибкам ранжирования. Веб-пространстве и сохраняющих индексную информацию об отих документах в индексе системы поиска. В связи с быстрым ростом Веб-просгранства проблема построения алгоритма его обхода (как первичного, гак и с целыо обновления индекса) является очень сложной и актуальной. Веб-пространства. Здесь предлагается использовать модифицированный алгоритм Клейнберга HITS [] (который в свое время был конкурентом алгоритму PageRank [ , ] — базе для Google), который в относительно небольшой тематически сфокусированной части Веб-пространства может найти страницы двух типов - авторитетные страницы и индексные страницы. В предлагаемом алгоритме авторитетные страницы сразу же включаются в индекс, а индексные используются для расширения поиска новых авторитетных страниц [2, 3, 5]. Для системного анализа гипертекста используется алгоритм TF-1DF [5, , , , ], который оценивает важность слов запроса в контексте документа, являющегося частью коллекции документов. Другими словами, вес некоторого слова запроса пропорционален количеству употребления данного слова в документе, и обратно пропорционален частоте употребления слова запроса в других документах коллекции.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.241, запросов: 244