Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Павлов, Антон Сергеевич
05.13.11
Кандидатская
2011
Москва
133 с. : ил.
Стоимость:
499 руб.
Глава 1. Анализ предметной области
1.1. Разновидности поискового спама
1.1.1. Текстовый спам
1.1.1.1. Генераторы текстов на основе цепей Маркова
1.1.2. Ссылочный спам
1.1.3. Техники маскировки поискового спама
1.2. Методы обнаружения поискового спама
1.2.1. Критерии оценки качества алгоритмов обнаружения поискового спама
1.2.1.1. Коллекция веб-страниц ХУеЬвратиК
1.2.2. Алгоритмы классификации
1.2.2.1. Алгоритм построения деревьев решений С4.5
1.2.2.2. Метод опорных векторов
1.2.2.3. Методы построения ансамбля классификаторов
1.2.3. Методы обнаружения текстового снама
1.2.3.1. Алгоритм обнаружения текстового спама на
основе эвристик
1.2.3.2. Метод на основе анализа тематик текста, моделируемых с помощью скрытого распределения Дирихле
1.2.3.3. Алгоритм на основе обнаружения редких пар
слов
1.2.4. Методы обнаружения ссылочного спама
1.2.4.1. Алгоритм Тп^гапк
1.2.4.2. Алгоритм обнаружения ссылочных ферм
1.2.4.3. Алгоритм на основе комбинации ссылочных
признаков
1.2.5. Методы обнаружения дубликатов
1.2.6. Комбинированные методы обнаружения поискового спама
1.2.6.1. Методы на основе объединения текстовых и
ссылочных признаков
1.2.6.2. Алгоритм обнаружения продажных ссылок
1.3. Выводы к первой главе
Глава 2. Алгоритм обнаружения текстового спама на основе оценки разнообразия тематик документа
2.1. Модель массово порождаемых неестественных текстов
2.1.1. Обзор методов порождения неестественных текстов
2.1.1.1. Модель мешок слов
2.1.1.2. Генераторы на основе цепей Маркова
2.1.1.3. Метод на основе фрагментов текстов
2.1.1.4. Обобщенная модель генератора текстов на
основе образцов
2.1.2. Тематическая структура текстов
2.1.3. Свойства тематической структуры порожденных текстов
2.2. Метод обнаружения неестественных текстов
2.2.1. Моделирование тематик с помощью модели скрытое распределение Дирихле (СРД)
2.2.2. Критерии обнаружения неестественных текстов
2.2.2.1. Нарушение тематической структуры текстов
2.2.2.2. Критерий Пирсона
2.2.2.3. Закон Ципфа для тематической структуры
2.3. Выводы ко второй главе
Глава 3. Комбинированный алгоритм обнаружения тексотвого спама
3.1. Метод на основе трудноконтролируемых характеристик текстов
3.1.1. Характеристики читаемости текста
3.1.2. Особенности жанра и авторского стиля
3.1.3. Глобальные статистические характеристики текстов
3.1.4. Характеристики тематического разнообразия текстов
3.2. Метод машинного обучения на основе деревьев решений
3.2.1. Построение базового классификатора
3.2.2. Построение ансамбля классификаторов
3.3. Выводы к третьей главе
Глава 4. Программная система классификации поискового спама
4.1. Архитектура системы обнаружения поискового спама
4.1.1. Сценарии использования системы
4.1.2. Основные модули системы
4.2. Экспериментальная оценка предложенного решения
4.2.1. Численное подтверждение модели массово порождаемых неестественных текстов
4.2.1.1. Методология исследования
4.2.1.2. Зависимость скорости сходимости от количества документов образцов
ссылочного графа, такие как количество входящих и исходящих ссылок для каждой страницы;
• Ссылочные признаки на уровне сайтов. Данная группа агрегирует все ссылочные признаки на более высоком уровне, что позволяет лучше учесть свойства сайтов, как единого целого;
Все описанные признаки объединялись в классификатор. Сложность построения классификатора спама заключается в существенном дисбалансе между классами спама и неспама. Обычно в обучающем наборе гораздо больше неспама, чем спама. Обучение на несбалансированных наборах данных обычно приводит к существенно худшим результатам, чем на сбалансированных.
В работе [43] предлагается использовать специальную стратегию построения ансамбля классификаторов для повышения качества классификации. Данная стратегия заключается в том, что строится множество простых классификаторов на основе деревьев решений С4.5, при этом каждый отдельный классификатор строится на сбалансированном наборе. Сбалансированные обучающие наборы получаются в результате случайного выбора в множестве неспама подмножества, совпадающего по размеру с множеством спама.
Несмотря на то, что в данном алгоритме применялись только существующие характеристики обнаружения поискового спама, он стал победителем соревнования по обнаружению поискового спама Web Spam Challenge 2008, получив на наборе данных WebspamUK-2007 AUC = 0,848.
1.2.6.2. Алгоритм обнаружения продажных ссылок
Опасной разновидностью поискового спама являются так называемые продажные ссылки. Это ссылки, которые размещаются на качественных сайтах и ведут на качественные сайты, но размещаются они не потому, что владелец сайта считает другой сайт авторитетным источником, а потому что
Название работы | Автор | Дата защиты |
---|---|---|
Программный комплекс компьютерного исследования атмосферных процессов для многоядерных процессоров | Раба, Никита Олегович | 2011 |
Отладка и верификация функционально-потоковых параллельных программ | Удалова, Юлия Васильевна | 2014 |
Повышение эффективности управления базами данных на основе оптимизации запросов с альтернативными маршрутами их выполнения | Дятчина, Дарья Васильевна | 2013 |