+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям

  • Автор:

    Поляков, Дмитрий Вадимович

  • Шифр специальности:

    05.13.17

  • Научная степень:

    Кандидатская

  • Год защиты:

    2013

  • Место защиты:

    Тамбов

  • Количество страниц:

    150 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы


СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ РЕШЕНИЙ ЗАДАЧ ПОИСКА И КЛАСТЕРИЗАЦИИ СВЕДЕНИЙ
1.1 Основные направления развития теории информационного поиска
1.2 Математические модели и алгоритмы поиска текстовой информации
1.3 Характеристики и критерии оценки информационного поиска
1.4 Постановка задачи кластеризации и подходы к её решению
1.5 Исследование существующих алгоритмов кластеризации информационных массивов
1.6 Выводы по первой главе
ГЛАВА 2. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ МЕТАПОИСКА НА ОСНОВЕ ПАРАМЕТРИЧЕСКОЙ ОПТИМИЗАЦИИ ЗАПРОСА
2.1 Общие подходы к организации метапоиска текстовых сведений
2.2 Математическая модель информационно-поисковой машины
2.3 Математическая модель параметрической оптимизации запроса
2.4 Формализация информационной потребности пользователя
2.5 Структура базы знаний для решения задачи параметрической оптимизации запроса
2.6 Алгоритмы параметрической оптимизации запроса и наполнения базы знаний.
2.7 Выводы
ГЛАВА 3. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТОВОГО ДОКУМЕНТА И АЛГОРИТМ КЛАСТЕРИЗАЦИИ ИНФОРМАЦИОННЫХ МАССИВОВ
3.1 Математическая модель текстового документа на основе нечёткого представления расстояний между термами в коллокации
3.2 Метрика на пространстве текстовых документов и их групп
3.3 Математическая модель кластеризации информационного массива по нечётким коллокациям
3.4 Алгоритм кластеризации информационного массива по нечётким коллокациям
3.5 Разработка алгоритмов фаззификации и дефаззификации. Выбор Т,Ь - норм

3.6 Оценка сложности и эффективности разработанных алгоритмов кластеризации информаци ионных массивов
3.7 Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А. ОПИСАНИЕ РАЗРАБОТАННЫХ ФУНКЦИЙ БАЗЫ
ЗНАНИЙ
ПРИЛОЖЕНИЕ Б. ВИД ФУНКЦИИ ПРИНАДЛЕЖНОСТИ ДЛЯ I РАВНОГО

ПРИЛОЖЕНИЕ В. КОПИИ АКТОВ О РЕАЛИЗАЦИИ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ
ВВЕДЕНИЕ
Актуальность темы исследования. Развитие информационных сетей, объединение их в единую глобальную сеть Интернет, появление электронных библиотек и иных баз данных привело к росту объема текстовой информации в Интернете, продолжающемуся и сейчас. Это, в свою очередь, стало причиной снижения уровня информированности людей из-за роста объемов шумовой и дублирующейся информации; сложности построения запроса, отвечающего интересам пользователя; использования коммерческими организациями результатов поиска как площадки для продвижения своих товаров; сложности построения эффективного и удовлетворяющего пользователя с позиции длительности поиска.
Степень разработанности темы исследования. Основные модели информационного поиска представлены в работах Э.Э. Гасанова, В.Б. Кудрявцева,
A.A. Санарского, И.В. Безсудова, Г. Солтона, Э.А. Фокса, Г. Ву, С.Э. Робертсона, К. Спарк-Джонса, М.В. Бэрри, Е.В. Ягуновой, Л.М. Пивоваровой.
Эффективность информационного поиска оценивается множеством метрик или характеристик, с большой частью которых можно ознакомиться в серии документов «Официальные метрики РОМИП». Основными характеристиками информационного поиска являются полнота и точность. Под эффективностью информационного поиска в дальнейшем будем понимать именно эти его характеристики. Естественно, полнота и точность конкретного информационного поиска являются случайными величинами, для оценки которых используются средние значения. Максимальные значения полноты и точности, равные 1, характеризуют идеальный поиск, но на современном этапе не удается достичь одновременно высоких значений обеих характеристик. Так, например, в своей книге «Интернетика» Д.В. Ландэ приводит следующие данные по работе современных информационно-поисковых машин (ИПМ): для значений полноты информационного поиска от 0,6 до 0,7 средняя его точность равна 0,75, а для

Рисунок 1.2 - Рассматриваемая классификация алгоритмов кластеризации
информационных массивов Одним из путей повышения эффективности информационного поиска стало использование коллокаций в моделях, формализующих текстовые документы. Понятие коллокации было впервые предложено одним из основателей Лондонской лингвистической школы Д. Фертом в середине 20-ого века. Ферт определял коллокацию как лексико-фразеологически обусловленную сочетаемость термов [109]. Понятие коллокации прижилось в корпусной лингвистике, где данный термин обычно определяется как последовательность термов, частота совместного появления которых не соответствует ожидаемой на основе закона случайного распределения термов [110]. То есть коллокация - это некоторое устойчивое сочетание в тексте.
Возникает задача выявления коллокаций, которая обычно решается статистическими методами. Самый распространённый алгоритм выявления коллокаций в тексте основан на составлении частот появления термов, слева и справа от ключевого слова. Часто используется список стоп-слов, состоящий из служебных и незначащих термов. Рассмотрим статистические показатели,

Рекомендуемые диссертации данного раздела

Время генерации: 0.139, запросов: 967