Исследование и разработка статистических методов группирования запросов в сложной информационной системе

Исследование и разработка статистических методов группирования запросов в сложной информационной системе

Автор: Полухин, Константин Васильевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Санкт-Петербург

Количество страниц: 148 с. ил.

Артикул: 3041991

Автор: Полухин, Константин Васильевич

Стоимость: 250 руб.

Исследование и разработка статистических методов группирования запросов в сложной информационной системе  Исследование и разработка статистических методов группирования запросов в сложной информационной системе 

Содержание
ВВЕДЕНИЕ
1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ ОПТИМИЗАЦИИ ЗАПРОСОВ СУБД
1.1. Локальная оптимизация запросов СУБД
1.2. Эффективные алгоритмы выполнения запросов
1.3. Глобальная оптимизация потока запросов.
1.4. Выводы.
2. МЕТОДЫ ГРУППИРОВАНИЯ ДАННЫХ В ЗАДАЧЕ АНАЛИЗА ПОТОКОВ ЗАПРОСОВ.
2.1. Методы визуализации данных.
2.2. Методы автоматического группирования данных
2.3. Алгоритмы поиска i правил в данных.
2.4. Анализ ассоциативных правил
2.5. Предлагаемые новации.
2.6. Выводы.
3. ИНСТРУМЕНТЫ ИССЛЕДОВАНИЯ ТЕКСТОВ В ЗАДАЧЕ АНАЛИЗА ПОТОКОВ ЗАПРОСОВ.
3.1. Возможности x ii на примере системы
x i
3.2. Системы семантического анализа текстов.
3.3. Система для семантического анализа текстов x
3.4. Выводы
4. НОВЫЕ ТЕОРЕТИЧЕСКИЕ РЕШЕНИЯ И ПРАКТИЧЕСКИЕ
АЛГОРИТМЫ И ПРОГРАММЫ АНАЛИЗА ПОТОКА ЗАПРОСОВ
4.1. Программные средства для получения и преобразования исходной
информации.
4.2. Поиск ассоциативных связей элементов сырых запросов в контексте времени их выполнения
4.3. Бесконтекстный поиск ассоциативных связей в характеристиках запросов.
4.4. Результаты кластерного анализа потока запросов.
4.5. Результаты применения программы ТехАпауБ в задаче локализации семантически сходных запросов
4.6. Выводы
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


Общим недостатком методов визуализации является то, что они "хорошо работают" только при сравнительно небольшом количестве объектов-запросов, когда удобно рассматривать "облака" - сгущения точек (объектов) в различных ракурсах. При большом количестве объектов (а анализируемые потоки запросов сложной информационной системы могут содержать тысячи и десятки тысяч запросов) их проецирование на плоскость или в трехмерное пространство не позволяет "разглядеть" много важных для группирования запросов деталей. Среди методов автоматического группирования объектов-запросов представляется наиболее эффективным использование алгоритмов иерархического группирования. Вместе с тем, применение этих алгоритмов для решения задачи анализа потока запросов также нуждается в дополнительной предобработке запросов с помощью специальных программ. Минимальные средства предобработки запросов информационной системы нужны при использовании алгоритмов поиска ассоциативных правил. Эти средства фактически могут быть сведены к некоторой "подчистке" запросов, которая заключается в удалении лишних, несущественных элементов. Вместе с тем, применение алгоритмов поиска ассоциативных правил при анализе потока запросов сталкивается с проблемой выбора целевого или, иными словами, "осевого" элемента, с которым будут искаться ассоциации других элементов в запросе. В ходе исследования проблемы задания целевого атрибута продуктивным оказался подход, суть которого сводится к поиску ассоциаций в полном наборе запросов, которые отсутствуют в выборке случайно сгенерированных запросов. То есть, подход, где целевым атрибутом выступает классифицирующая переменная, отражающая принадлежность запросов к реальной или случайно сгенерированной выборке запросов - "шуму". Генерации случайной выборки посвящено много литературы. В задаче анализа данных эта проблема особенно остро стоит при решении проблемы "множественных сравнений". Основная проблема здесь заключается в том, чтобы у случайно сгенерированной многомерной выборки распределения значений отдельно взятых показателей были бы идентичны распределениям значений в реальной выборке. Решение этой задачи было бы достаточно несложным, если бы указанные распределения подчинялись тем или иным известным законам распределения. Но в реальной жизни мы имеем дело с принципиально неоднородными выборками данных (такими как, например, в нашей задаче анализа потока запросов информационной системы). Этот метод заключается в том, что случайная выборка образуется из реальной путем случайной перестановки элементов каждого столбца по отдельности. Тем самым, обеспечивается полная идентичность распределений значений столбцов реальной и случайно организованной матрицы данных. В то же время, в "шуме" разрушены взаимосвязи между элементами, присутствующие в реальном потоке запросов. С целью улучшения интерпретации результатов кластерного анализа предложен подход, основанный на применении технологий поиска if-then правил, в которым классифицирующим фактором служит номер кластера. Использование логических правил для описания кластеров является более информативным, чем традиционный способ описания через характеристики центроидов. Обращает на себя внимание также тот факт, что в случае центроидов в описании кластеров участвуют все переменные таблицы данных, а в логические правила входят элементарные условия только на существенных переменных. Это заостряет внимание специалиста, занимающегося задачей повышения производительности информационной системы, только на наиболее важных чертах тех или иных группировок запросов. В третьей главе исследуются методы и инструментальные средства анализа текстовой информации, относящиеся к области Text Mining. Сделан вывод, что большинство коммерческих систем, заявленных в рубрике Text Mining, представляют собой мощные и дорогостоящие программные комплексы, обладающие изощренными и развитыми средствами манипулирования большими массивами текстовой информации. Вместе с тем, в указанных системах сильно завышены притязания на обладание свойствами семантического анализа и поиска в текстах. В большинстве случаев так называемый "семантический анализ" в данных системах сводится к автоматической иерархической рубрификации текстов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.270, запросов: 244