+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Исследование и разработка методов построения программных средств обнаружения текстового спама

  • Автор:

    Павлов, Антон Сергеевич

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2011

  • Место защиты:

    Москва

  • Количество страниц:

    133 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Глава 1. Анализ предметной области
1.1. Разновидности поискового спама
1.1.1. Текстовый спам
1.1.1.1. Генераторы текстов на основе цепей Маркова
1.1.2. Ссылочный спам
1.1.3. Техники маскировки поискового спама
1.2. Методы обнаружения поискового спама
1.2.1. Критерии оценки качества алгоритмов обнаружения поискового спама
1.2.1.1. Коллекция веб-страниц ХУеЬвратиК
1.2.2. Алгоритмы классификации
1.2.2.1. Алгоритм построения деревьев решений С4.5
1.2.2.2. Метод опорных векторов
1.2.2.3. Методы построения ансамбля классификаторов
1.2.3. Методы обнаружения текстового снама
1.2.3.1. Алгоритм обнаружения текстового спама на
основе эвристик
1.2.3.2. Метод на основе анализа тематик текста, моделируемых с помощью скрытого распределения Дирихле
1.2.3.3. Алгоритм на основе обнаружения редких пар
слов
1.2.4. Методы обнаружения ссылочного спама

1.2.4.1. Алгоритм Тп^гапк
1.2.4.2. Алгоритм обнаружения ссылочных ферм
1.2.4.3. Алгоритм на основе комбинации ссылочных
признаков
1.2.5. Методы обнаружения дубликатов
1.2.6. Комбинированные методы обнаружения поискового спама
1.2.6.1. Методы на основе объединения текстовых и
ссылочных признаков
1.2.6.2. Алгоритм обнаружения продажных ссылок
1.3. Выводы к первой главе
Глава 2. Алгоритм обнаружения текстового спама на основе оценки разнообразия тематик документа
2.1. Модель массово порождаемых неестественных текстов
2.1.1. Обзор методов порождения неестественных текстов
2.1.1.1. Модель мешок слов
2.1.1.2. Генераторы на основе цепей Маркова
2.1.1.3. Метод на основе фрагментов текстов
2.1.1.4. Обобщенная модель генератора текстов на
основе образцов
2.1.2. Тематическая структура текстов
2.1.3. Свойства тематической структуры порожденных текстов
2.2. Метод обнаружения неестественных текстов
2.2.1. Моделирование тематик с помощью модели скрытое распределение Дирихле (СРД)
2.2.2. Критерии обнаружения неестественных текстов
2.2.2.1. Нарушение тематической структуры текстов

2.2.2.2. Критерий Пирсона
2.2.2.3. Закон Ципфа для тематической структуры
2.3. Выводы ко второй главе
Глава 3. Комбинированный алгоритм обнаружения тексотвого спама
3.1. Метод на основе трудноконтролируемых характеристик текстов
3.1.1. Характеристики читаемости текста
3.1.2. Особенности жанра и авторского стиля
3.1.3. Глобальные статистические характеристики текстов
3.1.4. Характеристики тематического разнообразия текстов
3.2. Метод машинного обучения на основе деревьев решений
3.2.1. Построение базового классификатора
3.2.2. Построение ансамбля классификаторов
3.3. Выводы к третьей главе
Глава 4. Программная система классификации поискового спама
4.1. Архитектура системы обнаружения поискового спама
4.1.1. Сценарии использования системы
4.1.2. Основные модули системы
4.2. Экспериментальная оценка предложенного решения
4.2.1. Численное подтверждение модели массово порождаемых неестественных текстов
4.2.1.1. Методология исследования
4.2.1.2. Зависимость скорости сходимости от количества документов образцов

ссылочного графа, такие как количество входящих и исходящих ссылок для каждой страницы;
• Ссылочные признаки на уровне сайтов. Данная группа агрегирует все ссылочные признаки на более высоком уровне, что позволяет лучше учесть свойства сайтов, как единого целого;
Все описанные признаки объединялись в классификатор. Сложность построения классификатора спама заключается в существенном дисбалансе между классами спама и неспама. Обычно в обучающем наборе гораздо больше неспама, чем спама. Обучение на несбалансированных наборах данных обычно приводит к существенно худшим результатам, чем на сбалансированных.
В работе [43] предлагается использовать специальную стратегию построения ансамбля классификаторов для повышения качества классификации. Данная стратегия заключается в том, что строится множество простых классификаторов на основе деревьев решений С4.5, при этом каждый отдельный классификатор строится на сбалансированном наборе. Сбалансированные обучающие наборы получаются в результате случайного выбора в множестве неспама подмножества, совпадающего по размеру с множеством спама.
Несмотря на то, что в данном алгоритме применялись только существующие характеристики обнаружения поискового спама, он стал победителем соревнования по обнаружению поискового спама Web Spam Challenge 2008, получив на наборе данных WebspamUK-2007 AUC = 0,848.
1.2.6.2. Алгоритм обнаружения продажных ссылок
Опасной разновидностью поискового спама являются так называемые продажные ссылки. Это ссылки, которые размещаются на качественных сайтах и ведут на качественные сайты, но размещаются они не потому, что владелец сайта считает другой сайт авторитетным источником, а потому что

Рекомендуемые диссертации данного раздела

Время генерации: 0.199, запросов: 967