Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры

Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры

Автор: Тарасова, Алина Сергеевна

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2007

Место защиты: Воронеж

Количество страниц: 170 с. ил.

Артикул: 3404933

Автор: Тарасова, Алина Сергеевна

Стоимость: 250 руб.

Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры  Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры 

Содержание
ВВЕДЕНИЕ
ГЛАВу 1. АНАЛИЗ ПОДХОДОВ К РЕШЕНИЮ ЗАДАЧИ КЛАСТЕРИЗАЦИИ И РАСПОЗНАВАНИЯ ДАННЫХ.
1.1. Кластерный анализ.
1.1.1. Постановка задачи кластеризации.
1.1.2. Этапы решения задачи кластеризации
1.1.3.Сравнительный анализ подходов к решению задачи кластеризации .
1.2. Распознавание данных
1.2.1. Постановка задачи распознавания.
Т.2.2. Виды систем распознавания.
1.2.3. Модели для решения задач распознавания.
1.2.4 Нечеткие методы распознавания, основанные на продукционных правилах.
1.3 Цель и задачи исследования4Т
Выводы к первой главе
ГЛАВА 2. РАЗРАБОТКА МЕТОДОВ КЛАСТЕРИЗАЦИИ НА ОСНОВЕ
СХЕМЫ АЛГОРИТМА ОБОБЩЕННЫЙ РОДЕН.
21. Алгоритм Роден
2.2. Разработка алгоритмов, эффективных с точки зрения алгоритма Форель на основе схемыалгоритма Обобщенный Роден
2.3. Разработка алгоритмов кластеризации,
эффективных с точки зрения алгоритма КРАБ
2.4. Разработка нечетких алгоритмов кластеризации
на основе схемы алгоритма Роден
Выводы ко второй главе
ГЛАВА 3. РАЗРАБОТКА МЕТОДОВ ОПИСАНИЯ КЛАССОВ И РАСПОЗНАВАНИЯ НОВЫХ ОБЪЕКТОВ.
3.1. Распознавание новых объектов на основе подбора весов признаков для
классификационного разбиения.
32. Метод описания классов и распознавания новых объектов, позволяющий строить покрытие кластера множеством сферических правил
различного радиуса.
3.3. Методы определения геометрической формы кластеров
34. Построение и реализация кпастеризационнорегрессионных нечетких алгоритмов на основе схемы алгоритма Обобщенный Роден
Выводы к третьей главе
ГЛАВА 4. РЕАЛИЗАЦИЯ ПРЕДЛОЖЕННЫХ МЕТОДОВ И АНАЛИЗ
ВЫЧИСЛИТЕЛЬНОЙ ЭКСПЕРТИЗЫ.
4.1. Разработка методики сравнения результатов алгоритмов кластеризации .
4.2. Описание программного комплекса КЛАССМОД, реализующего предложенные методы
4.3. Программа для реализации метода распознавания данных с помощью правил различной геометрической формы
4.4. Результаты практической апробации разработанных алгоритмов кластеризации и распознавания новых объектов на примере анализа данных о клиентах компании ООО МБит
Выводы к главе 4
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


Такое группирование данных - это непростая задача, которая может быть осуществлена человеком только в случае малой размерности (до 3-х). Поэтому были предложены специальные методы, которые получили название «Методы кластеризации». Обзор, анализ и моделирование улучшенных процедур кластеризации и является целью данной работы. Рассмотрим основные понятия кластерного анализа. Объект х (также вектор признаков наблюдение или элемент данных) -это отдельная единица данных, которая подлежит обработке алгоритмом кластеризации. Обычно объект представляет собой вектор с1 измерений * = (*,, . Индивидуальные скалярные компоненты х1 вектора признаков х называют признаками или атрибутами. Рассмотрим понятие кластера. Интуитивное понимание кластера, используемое в работах по кластерному анализу, соответствует его английскому значению: скопление, гроздь, более плотное на общем фоне сгущение. Согласно Б. Существует множество определений кластера - от интуитивных до содержательных и формальных. Среди них существуют достаточно нетрадиционные подходы. Например, в подходе, представленном в [], каждая точка считается источником света, она освещает другие точки и сама освещается. Вводится нечеткая конструкция света, с помощью которой проявляется геометрическая структура кластера. Задача кластеризации состоит в разбиении объектов на несколько подмножеств (кластеров), в которых объекты более схожи между собой, чем с объектами из других кластеров. В метрическом пространстве "схожесть" обычно определяют через расстояние. Расстояние может рассчитываться как между исходными объектами (строчками матрицы), так и от этих объектов к прототипу кластеров. Обычно координаты прототипов заранее неизвестны — они находятся одновременно с разбиением данных на кластеры. Кластеризация - это разбиение данных на К кластеров Т? ЯА. Цель кластеризации - найти вектор центроидов с = (с, ,. УЯК}, минимизирующее (1). Необходимо понимать разницу между кластеризацией и классифиировапием. В классифицировании нам дается коллекция расклассифицированных (тренировочных) объектов, и задача состоит в отнесении нового элемента данных к одному из существующих классов. В данной работе классифицирование мы будем называть распознаванием новых объектов. Особо важное место кластерный анализ занимает в тех областях науки, которые связаны с изучением массовых явление и процессов. Кластеризацию применяют для эффективного сжатия и хранения данных, поиска в базах данных, сравнения изображений. Необходимость развития методов кластеризации и их использования заключается, прежде всего, в том, что такие методы помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, кластеризация может использоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных. Можно выделить следующие этапы решения задачи кластеризации: представление данных путем извлечения (и /или выбора) признаков; определение меры сходства, подходящей к рассматриваемым данным; кластеризация или группирование; абстракция или обобщение данных; Оценка результатов. Рисунок 1. V*. Л.*. Рисунок 1. Выбор признаков - это процесс определения подмножества признаков более эффективного для кластеризации. Извлечение признаков - это процесс трансформации входных признаков для получения новых явно выраженных признаков. Одна или обе эти техники могут быть использованы для получения множества признаков для кластеризации. Хорошее представление данных может приводить к простым и легко понимаемым классификационным разбиениям, в то время как плохое представление может привести к сложному классификационному разбиению и тогда истинную структуру данных сложно или вообще невозможно понять. Например, на рис. Если мы выберем декартовы координаты, то многие алгоритмы кластеризации разобьют этот фрагмент на несколько кластеров, так как он не компактный. Однако, при использовании полярных координат для представления фрагмента, то так как координаты радиуса примерно одинаковы, будет получен один кластер.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.608, запросов: 244