Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет

Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет

Автор: Арутюнян, Роман Эрнстович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2004

Место защиты: Ростов-на-Дону

Количество страниц: 170 с.

Артикул: 2738424

Автор: Арутюнян, Роман Эрнстович

Стоимость: 250 руб.

Содержание
Принятые обозначения и сокращения.
Введение.
Глава 1 Исследование и анализ методов и систем обработки текстовой информации и информационного поиска
1.1 Исследование математических методов статистической обработки текстов
1.1.1 Признаки в задачах статистической обработки текстов.
1.1.2 Методы классификации текстов
1.1.3 Методы информационного поиска текстовых документов
1.1.4 Методы автоматической генерации запросов к ИПС
1.2 Анализ прраммных средств информационного поиска и сбора информации в сети Интернет
1.2.1 ИПС Интернет
1.2.2 Ингернет каталоги
1.2.3 Метапоисковые системы.
1.2.4 Индивидуальные поисковые агенты.
1.2.5 Системы Интернетмониторинга
Постановка задачи исследования.
Г лава 2 Разработка моделей и методов получения и обработки документов
2.1 Разработка модели информационной потребности при решении задачи информационного поиска
2.1.1 Использование разделяющих гиперплоскостей при моделировании
информационной потребности
2.1.2 Пополнение знаний при помощи инкрементной модификации
алгоритма V.
2.1.3 Представление категорий в виде иерархии.
2.2 Разработка модели контекстного представления документов
2.3 Разработка метода формирования множества понятий предметной области.
2.4 Разработка метода классификации контекстных групп
2.5 Разработка метода контекстного поиска документов.
2.6 Разработка метода автоматического формирования тематических
запросов к ИПС.
Глава 3 Разработка архитектуры системы автоматизированного сбора
информации.
3.1 Разработка прраммных компонентов системы и интерфейсов их
взаимодействия
3.2 Модуль управления
3.3 Формирование потока документов.
3.4 Модули сбора информации
3.4.1 Асинхронное взаимодействие модулей сбора информации.
3.4.2 Модуль формирования поисковых задач
3.4.3 Модули формирования запросов.
3.4.4 Модули поиска
3.4.5 Модули получения документов
3.4.6 Модуль обработки документов
3.4.7 Модули сохранения документов.
3.5 Модули вычислений.
3.5.1 Модуль уточнения I гараметров Э УМ.
3.5.2 Модуль обновления понятий предметной области.
3.6 Модули пользовательских интерфейсов.
3.6.1 Интерфейс администратора.
3.6.2 Главный интерфейс системы
3.7 Организация хранения данных.
3.7.1 Г лавная база данных.
3.7.2 Подчиненные базы данных
Выводы.
Глава 4 Практические аспекты реализации системы автоматизированного сбора
тематической информации
4.1 Использование архитектуры для реализации программных компонентов системы.
4.2 Реализация очередей и механизмов передачи данных.
4.3 Разработка хранимых процедур для работы с данными
4.3.1 Хранимая процедура индексации
4.3.2 Хранимая процедура информационного поиска
4.4 Реализация алгоритмов обучения
4.5 Реализация обработки документов.
4.6 Реализация пользовательских интерфейсов.
4.7 Экспериментальная оценка аспектов функционирования системы сбора
информации
Заключение
Литература


Разработаны хранимые процедуры, решающие задачи индексации и информационного поиска документов в распределенной системе баз данных, основанные на использовании языка XML. В главе рассмотрена реализация алгоритмов обучения и обработки документов, а также пользовательских интерфейсов. Представлены результаты экспериментов по обучению системы, поиску информации и се сбору, а также эксперимент, оценивающий скоростные показатели разработанной архитектуры. В заключении обобщены итоги и результаты проведенных исследований. В теории информационного поиска одним из фундаментальных понятий является понятие релевантности. Документ называют релевантным (от англ. Информационный запрос, на котором основано понятие релевантности, в общем случае является некоторым выражением информационной потребности пользователя (рис. Запрос на поиск рождается из потребности людей в информации, которая нужна им для решения каких-либо задач. Задача информационного поиска состоит в отыскании по информационному запросу релевантных ему документов из некоторого множества. В качестве этого множества может выступать локальный архив документов или множество документов, хранящихся в пределах корпоративной локальной сети. Это приводит к тому, что у пользователей Интернет появляется возможность нахождения документов по множеству различных информационных запросов. Отметим также, что явное задание информационного запроса соответствует лишь одному из возможных способов информационного поиска. В общем же случае можно говорить о релевантности документа некоторой модели информационной потребности пользователя. Для обеспечения возможности поиска документов был разработан ряд методов, а также множество реализующих их программных средств. Задачи автоматизированной обработки текстов, такие как информационный поиск, классификация, кластеризация и другие, как правило, бывают призваны заменить аналогичную работу человека. Однако, поскольку человек при формировании экспертных оценок руководствуется множеством факторов, включая смысл текста и априорные знания в предмет ной области, подобная замена не может быть полноценной. Для вынесения экспертных оценок компьютерные системы обычно руководствуются некоторой математической моделью, описывающей тексты. В то время как теория распознавания образов накопила большое количество методов, которые могут быть применены к решению задач обработки текстов, встает вопрос о выборе представлений текстов и формирования векторов признаков для решения этих задач. Обычно при решении задач статистической обработки текстовых документов, эти документы предполагаются связными и состоят из отдельных слов, следующих друг за другом. При этом иллюстрации, а также форматирование документов не принимаются в расчет. При статистической обработке текстов в качестве признаков использую гея слова, базовые словоформы, а также словосочетания и группы слов. Использование отдельных слов в качестве признаков приводит к простейшему представлению текстов. Развитием данного типа представлений является использование в качестве признаков базовых словоформ. Каждое слово при этом приводится к ним с помощью специальных алгоритмов. Это позволяет устранить зависимость от падежей, чисел и иных форм слов, зачастую не влияющих на смысл документов, содержащих эти слова. Также при обработке текстов в качестве признаков могут использоваться словосочетания. При этом, поскольку словосочетания определяются с учетом грамматики языка и соответствуют некоторым смысловым единицам [], данный подход требует создания грамматической модели языка. В качестве признаков при обработке текстов также могут использоваться группы слов. Образование данных признаков происходит в результате работы статистических методов группировки, причем главной целью при этом зачастую является снижение размерности признакового пространства относительно пространства на базе словоформ. Для формирования векторов признаков, соответствующих тексту, каждому признаку ставится в соответствие вес, отражающий его важность в данном тексте. Кроме того, вектора признаков обычно подвергаются нормированию для удаления зависимости от длины документа.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.281, запросов: 244