Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Поляков, Дмитрий Вадимович
05.13.17
Кандидатская
2013
Тамбов
150 с. : ил.
Стоимость:
499 руб.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ РЕШЕНИЙ ЗАДАЧ ПОИСКА И КЛАСТЕРИЗАЦИИ СВЕДЕНИЙ
1.1 Основные направления развития теории информационного поиска
1.2 Математические модели и алгоритмы поиска текстовой информации
1.3 Характеристики и критерии оценки информационного поиска
1.4 Постановка задачи кластеризации и подходы к её решению
1.5 Исследование существующих алгоритмов кластеризации информационных массивов
1.6 Выводы по первой главе
ГЛАВА 2. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ МЕТАПОИСКА НА ОСНОВЕ ПАРАМЕТРИЧЕСКОЙ ОПТИМИЗАЦИИ ЗАПРОСА
2.1 Общие подходы к организации метапоиска текстовых сведений
2.2 Математическая модель информационно-поисковой машины
2.3 Математическая модель параметрической оптимизации запроса
2.4 Формализация информационной потребности пользователя
2.5 Структура базы знаний для решения задачи параметрической оптимизации запроса
2.6 Алгоритмы параметрической оптимизации запроса и наполнения базы знаний.
2.7 Выводы
ГЛАВА 3. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТОВОГО ДОКУМЕНТА И АЛГОРИТМ КЛАСТЕРИЗАЦИИ ИНФОРМАЦИОННЫХ МАССИВОВ
3.1 Математическая модель текстового документа на основе нечёткого представления расстояний между термами в коллокации
3.2 Метрика на пространстве текстовых документов и их групп
3.3 Математическая модель кластеризации информационного массива по нечётким коллокациям
3.4 Алгоритм кластеризации информационного массива по нечётким коллокациям
3.5 Разработка алгоритмов фаззификации и дефаззификации. Выбор Т,Ь - норм
3.6 Оценка сложности и эффективности разработанных алгоритмов кластеризации информаци ионных массивов
3.7 Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А. ОПИСАНИЕ РАЗРАБОТАННЫХ ФУНКЦИЙ БАЗЫ
ЗНАНИЙ
ПРИЛОЖЕНИЕ Б. ВИД ФУНКЦИИ ПРИНАДЛЕЖНОСТИ ДЛЯ I РАВНОГО
ПРИЛОЖЕНИЕ В. КОПИИ АКТОВ О РЕАЛИЗАЦИИ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ
ВВЕДЕНИЕ
Актуальность темы исследования. Развитие информационных сетей, объединение их в единую глобальную сеть Интернет, появление электронных библиотек и иных баз данных привело к росту объема текстовой информации в Интернете, продолжающемуся и сейчас. Это, в свою очередь, стало причиной снижения уровня информированности людей из-за роста объемов шумовой и дублирующейся информации; сложности построения запроса, отвечающего интересам пользователя; использования коммерческими организациями результатов поиска как площадки для продвижения своих товаров; сложности построения эффективного и удовлетворяющего пользователя с позиции длительности поиска.
Степень разработанности темы исследования. Основные модели информационного поиска представлены в работах Э.Э. Гасанова, В.Б. Кудрявцева,
A.A. Санарского, И.В. Безсудова, Г. Солтона, Э.А. Фокса, Г. Ву, С.Э. Робертсона, К. Спарк-Джонса, М.В. Бэрри, Е.В. Ягуновой, Л.М. Пивоваровой.
Эффективность информационного поиска оценивается множеством метрик или характеристик, с большой частью которых можно ознакомиться в серии документов «Официальные метрики РОМИП». Основными характеристиками информационного поиска являются полнота и точность. Под эффективностью информационного поиска в дальнейшем будем понимать именно эти его характеристики. Естественно, полнота и точность конкретного информационного поиска являются случайными величинами, для оценки которых используются средние значения. Максимальные значения полноты и точности, равные 1, характеризуют идеальный поиск, но на современном этапе не удается достичь одновременно высоких значений обеих характеристик. Так, например, в своей книге «Интернетика» Д.В. Ландэ приводит следующие данные по работе современных информационно-поисковых машин (ИПМ): для значений полноты информационного поиска от 0,6 до 0,7 средняя его точность равна 0,75, а для
Рисунок 1.2 - Рассматриваемая классификация алгоритмов кластеризации
информационных массивов Одним из путей повышения эффективности информационного поиска стало использование коллокаций в моделях, формализующих текстовые документы. Понятие коллокации было впервые предложено одним из основателей Лондонской лингвистической школы Д. Фертом в середине 20-ого века. Ферт определял коллокацию как лексико-фразеологически обусловленную сочетаемость термов [109]. Понятие коллокации прижилось в корпусной лингвистике, где данный термин обычно определяется как последовательность термов, частота совместного появления которых не соответствует ожидаемой на основе закона случайного распределения термов [110]. То есть коллокация - это некоторое устойчивое сочетание в тексте.
Возникает задача выявления коллокаций, которая обычно решается статистическими методами. Самый распространённый алгоритм выявления коллокаций в тексте основан на составлении частот появления термов, слева и справа от ключевого слова. Часто используется список стоп-слов, состоящий из служебных и незначащих термов. Рассмотрим статистические показатели,
Название работы | Автор | Дата защиты |
---|---|---|
Построение и исследование полных решающих деревьев для задач классификации по прецедентам | Генрихов, Игорь Евгеньевич | 2013 |
Проблема обоснования качества классов алгоритмов с универсальными ограничениями монотонности | Семочкин, Александр Николаевич | 1998 |
Цифровой синтез многоракурсных стереоскопических изображений для безочковой растровой демонстрации | Кондратьев, Николай Витальевич | 2012 |