Система поиска текстовых документов на основе автоматически формируемого электронного каталога

Система поиска текстовых документов на основе автоматически формируемого электронного каталога

Автор: Борисюк, Федор Владимирович

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Нижний Новгород

Количество страниц: 120 с. ил.

Артикул: 4890097

Автор: Борисюк, Федор Владимирович

Стоимость: 250 руб.

Система поиска текстовых документов на основе автоматически формируемого электронного каталога  Система поиска текстовых документов на основе автоматически формируемого электронного каталога 

Введение.
Глава I. Общая характеристика проблемы тематического ранжирования, на основе автоматически построенного электронного каталога текстовых документов.
1.1 Предлагаемая математическая модель поиска по ключевым словам с тематическим ранжированием.
1.2 Предлагаемая математическая модель автоматического построения электронного каталога
1.3 Постановка задачи текстовой кластеризации
1.4 Обзор существующих алгоритмов текстовой кластеризации
1.4.1 Алгоритмы кластеризации, использующие критерий квадратичной ошибки.
1.4.2 Алгоритмы основанные на технологии нейронных сетей.
1.4.3 Алгоритмы кластеризации, основанные на концепции плотности
1.4.4 Алгоритмы, основанные на теории графов.
1.4.5 Иерархические алгоритмы, строящие бинарное дерево
1.4.6 Алгоритм кластеризации основанный на суффиксном дереве.
1.4.7 Методы нечеткой кластеризации
1.5 Оценка качества кластеризации текстовой коллекции
1.6 Оценка качества ранжирования поисковых результатов.
1.7 Постановка задачи формирования информационных образов текстовых документов.
1.8 Морфологический анализ.
1.9 Обзор методов статического анализа формирования информационных образов документов.
1.9.1 Критерий порога частоты встречаемости слова в документах коллекции
1.9.2 Критерий информационного веса слова в рубрике.
1.9.3 Критерий прироста информации
1. Оценка важности терминов по формуле ТТГОР
Выводы по главе
Глава II Разработка математической модели поиска по ключевым словам с тематическим ранжированием на основании автоматического построения электронного каталога текстовых документов.
2.1 Подготовка информационных образов текстовых документов.
2.2 Построение инвертированного индекса
2.3 Иерархическая кластеризация по областям текстовых документов
2.3.1 Инициализация алгоритма иерархической кластеризации по областям.
2.3.2 Этап обработки входящего потока документов
2.3.3 Критерий качества уровня дерева.
2.3.4 Операция разделения области.
2.3.5 Операция интеграции подобластей.
2.3.6 Анализ вычислительной сложности алгоритма иерархической кластеризации по областям
2.4 Преобразование иерархии кластеров в иерархию электронного каталога
2.5 Построение вербального описания иерархического каталога.
2.6 Описание выбранной технологии распределенного программирования .i.i
2.7 Параллельная реализация построения информационных образов текстовых документов
2.8 Параллельная реализация алгоритма иерархической кластеризации по областям текстовых документов.
2.9 Поиск по ключевым словам с тематическим ранжированием, на основе электронного каталога.
Выводы по главе II
Глава III. Программная реализация системы поиска с тематическим
ранжированием, на основе автоматически построенного электронного каталога
3.1 Структура программного комплекса поисковой системы с тематическим
ранжированием, на основе автоматически построенного электронного каталога
3.1.1 Компонент построения иерархической структуры каталога.
3.1.2 Компонент построения образов текстовых документов.
3.1.3 Компонент поиска с тематическим ранжированием результатов
3.1.4 Компонент алгори тмов параллельного построения электронного каталога
3.2 Описание тестовых текстовых коллекций.
3.3 Выбор параметров алгоритма иерархической кластеризации по областям
3.4 Результаты испытаний предлагаемой математической модели автоматического построения электронного каталога
3.4.1 Результаты испытаний последовательных версий разработанных алгоритмов.
3.4.2 Исследование предлагаемого способа формирования описания кластеров
3.4.3 Результаты испытаний параллельных версий разработанных алгоритмов.
3.5 Результаты испытаний качества работы предлагаемого алгоритма тематического ранжирования.
Выводы по главе III
Выводы.
Список литературы


Для улучшения качества выдаваемых поисковых результатов не так давно появилось новое направление в области информационного поиска поключевым словам поиск по ключевым словам с использованием категориальной информации подготовленных вручную электронных каталогов. Т. i , . М. , В. Б данных работах использовался созданный и поддерживаемый группой эксиертовволонтеров по всему миру каталог i . Исследователям удалось повысить качество выдаваемых поисковых результатов за счет их тематического ранжирования, когда наиболее важные по тематике документы помещаются алгоритмом ранжирования выше в списке результатов. Однако, исследователи применяли тематическое ранжирование с заранее предопределенным набором тематических групп, а также использовали помощь экспертов при подготовке обучающего множества алгоритма ранжирования, поэтому для применения данного подхода на конкретной области знаний требуется подготовка соответствующего классификатора. Как было замечено, подготовка нового или адаптация существующего классификатора является достаточно затратной, поэтому требуется применение новых, более эффективных методов подготовки электронных тематических каталогов. Среди известных подходов к решению задачи автоматического построения иерархического каталога можно выделить работы О. В. Песковой , а также Тао i и , i . В данных работах использовались алгомеративные построение иерархии снизу вверх алгоритмы текстовой кластеризации построения иерархической структуры каталога. Однако в данных работах не предполагалось использование автоматически сформированного каталога в задаче тематического ранжирования. Предложенные в данных работах методы автоматического построения электронного каталога обладают высокой вычислительной трудоемкостью, что является существенным минусом при учете объемов накопленных текстовых данных. Также можно отметить, что в настоящее время уже невозможно иметь эффективную инфраструктуру без использования распределенных вычислений. Предложенные в упомянутых работах подходы не предлагают распределенных программных решений. Поэтому требуется разработать эффективные методы текстовой кластеризации, которые смогли бы автоматически строить электронный каталог, и позволяли распределенную поддержку больших коллекций текстовых документов. Таким образом, актуальной является задача создания новых математических моделей информационного поиска по ключевым словам с тематическим ранжированием результатов поиска, на основе автоматически построенного с использованием методов автоматической каталогизации способных без участия человека строить электронные каталоги заданных коллекций текстовых документов электронного каталога. Цель работы заключается в создании математических моделей и методов поиска по ключевым словам с тематическим ранжированием, на основе электронного каталога заданных коллекций текстовых документов автоматически построенного с использованием разработанных алгоритмов текстовой кластеризации. Методы исследований, достоверность и обоснованность результатов. Для решения поставленных задач были использованы методы математического моделирования, системного анализа, методы математической статистики, кластерного анализа. Эффективность разработанных алгоритмов оценивалась с помощью математических методов анализа алгоритмов. В разработке про1раммного обеспечения применялись методы объектноориентированного программирования с использованием инструментов интегрированной среды разработки i . Для разработки параллельных версий алгоритма использовались программные средства платформы для распределенных вычислений . Достоверность и обоснованность результатов подтверждается корректностью разработанных математических моделей, согласованностью данных экспериментов и научных выводов, сделанных в работе, результатами апробации алгоритмов и разработанной программной системы. В работе предложена новая математическая модель поиска по ключевымсловам с тематическим ранжированием результатов поиска, на основе автоматически построенного электронного каталога заданных коллекций текстовых документов без ограничения на тематику и размер исходной текстовой коллекции.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.391, запросов: 244