Исследование и разработка метода автоматической классификации поведения пользователей Интернет

Исследование и разработка метода автоматической классификации поведения пользователей Интернет

Автор: Щербина, Андрей Андреевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2007

Место защиты: Москва

Количество страниц: 87 с. ил.

Артикул: 3310446

Автор: Щербина, Андрей Андреевич

Стоимость: 250 руб.

Введение
1.1 Актуальность темы
1.2 Цель и задачи работы.
1.3 Научная новизна
1.4 Практическая значимость
1.5 Апробация работы и публикации
1.6 Структура работы.
1.7 Краткое содержание работы
1.7.1 Предметная область
1.7.2 Предлагаемые решения
1.7.3 Обсуждение результатов.
1.8 Основные выводы и результаты исследования.
1.9 Список работ опубликованных по теме диссертации.
2 Предметная область.
2.1 Практическая значимость.
2.2 Основные принципы анализа.
2.3 Сбор информации.
2.3.1 Сбор данных на уровне клиента
2.3.2 Сбор данных на уровне проксисервера.
2.3.3 Сбор данных на узлах сети
2.3.4 Сбор данных на уровне сервера
2.3.5 Ограничения в сборе данных.
2.4 Подготовка данных.
2.5 Статистический анализ.
2.6 Визуализация данных.
2.7 Поиск ассоциативных правил и частых последовательностей.
2.8 Алгоритмы кластеризации.
2.9 Кластеризация пользовательских сессий
2. Верификация результатов анализа.
2. Заключение
3 Предлагаемая методика
3.1 Выбор оптимальной метрики.
3.1.1 Метрика Манхэттена
3.1.2 Метрика Левенштейна, Модификации метрики
3.1.3 Предлагаемая метрика
3.2 Выделение выбросов
3.3 Определение оптимального распределения
3.4 Структура прототипа.
3.5 Модуль очистки данных.
3.6 Модуль выделения сессий доступа.
3.7 Модуль кластеризации
3.8 Модуль поиска ассоциативных правил
3.9 Выводы
4 Результаты и обсуждение
4.1 Тестовый набор
4.2 Результаты кластеризации
4.2.1 Распределение пользователей по кластерам
4.2.2 Распределение страниц по кластерам
4.2.3 Распределение каталогов по кластерам
4.2.4 Распределение сессий различной длины по кластерам.
4.2.5 Внутрикластерное и межкластерное расстояния.
4.2.6 Количество выбросов.
4.2.7 Ассоциативные правила.
4.3 Сравнительный анализ предлагаемых методов.
4.4 Статистические индексы разбиения
4.5 Индексы, основанные на характеристической функции.
4.6 Индекс на основании количества уникальных правил
4.7 Обсуждение результатов
4.7.1 Алгоритмы кластеризации.
4.7.2 Метрики.
4.7.3 Определение лучшего разбиения.
5 Выводы.
6 Библиография наименований.
Введение


Цель и задачи работы. Структура работы. Обсуждение результатов. Основные выводы и результаты исследования. Список работ опубликованных по теме диссертации. Предметная область. Практическая значимость. Основные принципы анализа. Сбор информации. Сбор данных на уровне проксисервера. Ограничения в сборе данных. Подготовка данных. Статистический анализ. Визуализация данных. Поиск ассоциативных правил и частых последовательностей. Алгоритмы кластеризации. Верификация результатов анализа. Выбор оптимальной метрики. Структура прототипа. Модуль очистки данных. Модуль выделения сессий доступа. Распределение сессий различной длины по кластерам. Внутрикластерное и межкластерное расстояния. Количество выбросов. Ассоциативные правила. Сравнительный анализ предлагаемых методов. Индексы, основанные на характеристической функции. Алгоритмы кластеризации. Метрики. Определение лучшего разбиения. Выводы. Библиография наименований. Каждый день новые данные поступают в наше распоряжение, и их больше, чем можно просто просмотреть, не говоря уже об эффективном использовании для принятия решений. Очевидно, что такие объемы данных не поддаются эффективной обработке традиционными методами ручного анализа. Интерес со стороны научнотехнических и коммерческих организаций породил в начале х годов острую необходимость в разработке новых технологий и средств, которые могли бы автоматически переводить обрабатываемые данные в полезную информацию и знания. Технология ii извлечение знаний один из результатов этих научных разработок. На данный момент, отсутствуют полностью автоматизированные методики классификации пользователей Интернет. Существующие решения требует достаточно больших затрат времени со стороны эксперта на обучение системы, е настройку или контроль. Рост числа пользователей, объма накопленных данных и экономического значения Интернет требует появления, независимых от экспертов, программных средств для поиска информации и получения данных об использовании определенных ресурсов. В данной работе предлагается метод автоматической классификации пользователей Интернет, основанный на расстоянии редактирования. Создан прототип системы, обеспечивающий полную автоматизацию процесса классификации от очистки данных до контроля качества полученной классификации. Интернетсайта. Целевое значение не более двух часов на обработку данных за одни сутки 0 0 посещений. В рамках работы проведено сравнительное тестирование на пространстве вебсессий представленной метрики, метрики Манхэттена, расстояния редактирования, а также трх дополнительных вариантов модификации расстояния редактирования. Число пользователей Интернет растт темпами, опережающими любые возможности ручного анализа. Оказывается невозможным применение классических методов анализа, требующих от эксперта формулирования гипотез или создания обучающих данных. Разработанная методика позволяет осуществлять полностью автономную классификацию пользователей Интернет. Отсутствие необходимости в работе эксперта и линейная зависимость сложности метода от количества вебсессий позволяет обрабатывать данные практически любых объмов. С учтом того, что используются данные серверных журналов, которые собираются практически для любого вебресурса, разработанная методика применима для анализа большинства вебсайтов. Реализованный прототип системы был использован для анализа журналов вебресурсов . Получены классы пользователей этих сайтов, соответствующие наиболее популярным моделям поведения. Классы были определены автономно, все пользовательские сессии были распределены по соответствующим кластерам. По материалам диссертации опубликовано 7 работ. Восемьдесят шестой семинар Московской Секции I, Москва, . Конференция i Ii , Познань, Польша, . Конференция Ii ii, Лейпциг, Германия, . Семинар Современные сетевые технологии под руководством д. Васенина В. А., . Работа состоит из введения, трх глав, заключения и списка литературы. Объм диссертации составляет страниц. Библиография включает наименований.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.236, запросов: 244