Повышение релевантности периодического тематического поиска информации в Web

Повышение релевантности периодического тематического поиска информации в Web

Автор: Максаков, Алексей Владимирович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2007

Место защиты: Москва

Количество страниц: 117 с. ил.

Артикул: 3333681

Автор: Максаков, Алексей Владимирович

Стоимость: 250 руб.

Повышение релевантности периодического тематического поиска информации в Web  Повышение релевантности периодического тематического поиска информации в Web 

ВВЕДЕНИЕ.
1. Обзор методов решения задачи периодического тематического поиска
1.1 Особенности задачи информационного поиска в УеЬ
1.2 Показатели качества поиска
1.3 Требования к системам периодического тематического поиска и критерии их эффективности
1.4 Существующие решения задачи периодического поиска в УеЬ.
1.4.1 Периодический поиск с использованием систем поиска по ключевым словам
1.4.2. Периодический поиск с использованием метаинформационнных поисковых систем.
1.4.3. Периодический поиск новой информации на подмножестве источников информации УеЬ.
1.4.4.Поиск обновлений в тематических каталогах.
1.5 Основные подходы к решению задачи тематической фильтрации .
1.5.1 Сравнение метода поиска по ключевым словам с методами поиска, основанными на использовании методов машинного обучения
1.5.2 Оценка необходимого объема вычислений для обработки новой информации УеЬ
1.5.3 Варианты практического использования методов машинного обучения для решения задачи периодического тематического поиска.
1.6 Выводы
2. Метод периодического тематического поиска, основанный на использовании классификаторов.
2.1 Постановка задачи.
2.2 Описание предложенного метода.
2.2.1 Схема работы метода.
2.3 Алгоритм составления запроса по ключевым словам на основе обучающей выборки
2.4 Обоснование предложенного метода.
2.5 Выводы.
3. Методы решения задачи классификации текстов.
3.1 Требования к алгоритмам классификации
3.2 Метрики качества классификации.
3.3 Основные этапы классификации текстов.
3.4 Основные подходы к представлению текстов.
3.4.1 Использование морфологического анализа.
3.4.2 Использование синтаксического анализа
3.4.3 Определение пространства признаков.
3.4.4 Методы выбора признаков
3.4.5 Кластеризация признаков
3.4.6 Отбор фраз.
3.4.7 Определение весов признаков
3.5 Оценка алгоритмов классификации на коллекциях документов.
3.6 Критерии сравнения алгоритма классификации.
3.7 Обзор алгоритмов классификации.
3.7.1 Метод Байеса.
3.7.2 Алгоритм ЯоссЫо
3.7.3 Вероятностный классификатор ТБГОБ
3.7.4 Метод кближайших соседей
3.7.5 Метод опорных векторов.
3.7.6 Нейронные сети.
3.7.7 Деревья решений
3.7.8 Алгоритмы построения булевских формул
3.8 Сравнительный анализ алгоритмов классификации
3.9 Описание масштабируемых алгоритмов классификации текстов
3.9.1 Модификация метода Байеса
3.9.2 Метод построения нескольких разделяющих гиперплоскостей
ЗЛО Сопоставление весов признакам для метода опорных векторов ЗЛ1 Экспериментальное исследование алгоритмов классификации и
способов представления документов
31 Методология проведения экспериментов
32 Описание тестовых коллекций.
33 Результаты экспериментов
34 Выводы
4. Практическая реализация предложенного подхода.
4.1 Архитектура реализации
4.2 Способы получения анализируемого множества документов из
4.3 Практическая апробация предложенного подхода.
4.4 Выводы.
Заключение.
Список литературы


Таким образом, можно сделать вывод, что более четверти пользователей Интернет занимаются, по сути, тематическим поиском, причем делают это бессистемно и тратят на процесс поиска достаточно большие ресурсы: личное время и ресурсы поисковых машин. Использование систем периодического тематического поиска позволяет автоматизировать и систематизировать процесс поиска информации для этой категории пользователей. УеЬ. Следует отметить, что сервис периодической доставки релевантных документов имеет практический смысл только в том случае, если тематическая потребность остается актуальной и неизменной в течение большого промежутка времени. Результаты поиска необходимо предоставить пользователю в течение ограниченного, вполне определенного интервала времени. В области поиска информации исторически выделяются два сильно связанных типа задач [,,]: информационного поиска (information retrieval) и фильтрации информации (information filtering). Системы информационного поиска применяются в условиях высокой изменяемости информационной потребности пользователей и относительной статичности используемого хранилища информации. Системы фильтрации информации напротив, предназначены для получения релевантных документов из высоко динамичных источников информации, но при этом делается допущение о том, что интересы пользователей слабо изменяются со временем. Условие долговременности информационной потребности позволяет отнести задачу периодического тематического поиска к классу задач тематической фильтрации информации. Традиционно задача фильтрации информации рассматривается как задача выбора релевантных данных из постоянно изменяющихся потоков документов [,], таких как новостные сообщения [,,4,3], почтовые сообщения [,,]. Отличие задачи фильтрации на всем Web от традиционной задачи фильтрации состоит в том, что протокол передачи данных в Web HTTP [] реализует модель “запрос-ответ” и не позволяет оповещать об изменениях в данных. Это приводит к тому, что обнаружить все изменения в Web можно только проанализировав всю доступную информацию, объем которой очень велик. Образно говоря, задача фильтрации в Web отличается от традиционной примерно так же, как работа коммивояжера отличается от работы продавца в магазине. В традиционных методах фильтрации для описания информационной потребности используются как наборы ключевых слов [,3], так и обучающие коллекции документов [,,]. Методы, основанные на использовании запроса по ключевым словам, будем в дальнейшем называть методами поиска по ключевым словам. К недостаткам метода поиска по ключевым словам относят слабую выразительность языка запросов и высокую сложность составления оптимального запроса, что приводит к низкому качеству тематического поиска в Web. С другой стороны существует множество успешно применяемых методов определения тематической принадлежности документов, в том числе и с использованием алгоритмов классификации (или методов машинного обучения [1]), использующих обучающие коллекции документов. Однако высокая вычислительная сложность задач обучения и классификации ограничивает практическую применимость таких методов для УеЬ. В этих условиях разработка метода периодического тематического поиска в УеЬ в условиях долговременности информационной потребности пользователя и динамичности пространства поиска, повышающего качество поиска по сравнению с традиционными методами, представляется актуальной. Основным вкладом данной работы, определяющим ее научную новизну, является создание метода периодического тематического поиска, успешно сочетающего методы поиска по ключевым словам, обеспечивающие высокую полноту охвата информационных источников в ? Ь, и методы тематической фильтрации, основанные на машинном обучении, позволяющие достичь более высокого качества поиска по сравнению с другими известными методами. Повышение качества поиска в рамках автоматизированного процесса нахождения новой тематически-ориентированной информации по сравнению с существующими методами обуславливает практическую ценность предложенного метода.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.288, запросов: 244