+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Методы и алгоритмы классификации информации для защиты от спазма

  • Автор:

    Блинов, Станислав Юрьевич

  • Шифр специальности:

    05.13.19

  • Научная степень:

    Кандидатская

  • Год защиты:

    2013

  • Место защиты:

    Санкт-Петербург

  • Количество страниц:

    97 с.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Оглавление
Введение
Глава 1. Анализ тенденций и закономерности развития систем классификации информации
1.1 Анализ тенденций развития систем классификации
1.2 Основные методы классификации
1.2.1 Иерархический метод классификации
1.2.2 Фасетный метод классификации
1.2.3 Дескрипторный метод
1.2.4 Метод “ближайшего соседа” или системы рассуждений на базе аналогичных случаев
1.2.5 Многомерная классификация
1.3. Спам
1.3.1 Понятие о спаме
1.3.2 Спам без вложений
1.3.3 Спам с вложением
1.3.4 Многочисленные методы рассылки
1.3.5 Ущерб от спама спама
1.3.6 Методы борьбы со спамом
1.4 Выводы по главе
Глава 2. Постановка и алгоритмы решения задачи классификации
2.1 Математическая постановка задачи классификации
2.2 Обзор основных алгоритмов классификации
2.3. Метод опорных векторов
2.3.1 Основные преимущества 8УМ
2.3.2 Основные недостатки БУМ
2.3 Выводы по главе
Глава 3. Основные методы порождения и обнаружения поискового спама. Математические модели генерации неестественных текстов
3.1 Методы порождения поискового спама
3.2 Методы обнаружения поискового спама
3.3. Математические модели генерации неестественных текстов
3.4 Выводы по главе
Глава 4. Разработка и анализ метода классификации текстов на базе метода опорных векторов
4.1. Разработка алгоритма решения задачи зашиты от спама при нестационарных данных на базе БУМ
4.2. Алгоритмы решения задачи сильной отделимости
4.3 Создание обучающей выборки
4.4 Признаки ссылочного спама
4.5 Алгоритм определения спамности документа

4.6 Выводы по главе
Глава 5. Результаты экспериментального исследования разработанного метода
5.1 Подготовка обучающей выборки
5.2 Результаты экспериментов
5.2.1 Полученные результаты и анализ первого эксперимента
5.2.2 Полученные результаты и анализ второго эксперимента
5.2.3 Полученные результаты и анализ третьего эксперимента
5.2.3 Результаты сравнения и анализ с Kaspersky Anti-Spam
5.2 Выводы по главе
Заключение
Список литературы
Введение
Актуальность работы.
На современном этапе состояния общества информационные технологии (ИТ) породили все увеличивающийся поток разнородной информации. Основной задачей поисковых систем (поисковых машин) является предоставление качественных результатов, т.е. наиболее важных релевантных страниц. Для этого необходимо решать задачу классификации (classification problem). Поэтому теория, методы и алгоритмы классификации информации являются бурно развивающимся научным направлением.
Классификация информации в сетях, и в частности в сети Интернет, позволяет решать различные задачи, например: документооборот,
автоматическое аннотирование и реферирование, машинный перевод, составление интернет-каталогов, ограничение области поиска в поисковых системах, определение кодировки и языка текста, классификация новостей и т.д.
В России активно развиваются системы автоматической классификации текста и специализированные системы полнотекстового анализа, позволяющие производить автоматическую классификацию и реферирование текстов, например, “Следопыт”, ’’ТекстАналист” и другие.
Одной из важнейших проблем, встающей практически перед каждым пользователем Интернет, является борьба со спамом, то есть задача фильтрации (классификации) поступающей информации.
Кроме того, в связи с бурным ростом объема информации в сети Интернет поисковые машины стали основным средством для эффективного доступа к ней. Задача поисковой машины - на каждый поисковый запрос выдавать ранжированный набор страниц, наиболее соответствующих запросу. Мера соответствия страницы запросу,

Глава 2. Постановка и алгоритмы решения задачи классификации
2.1 Математическая постановка задачи классификации
Формальная постановка задачи классификации выглядит следующим образом. Пусть дано конечное множество категорий (классов) С = {сь со, ...С|с|} и конечное множество документов 2) = {с1, Л, ...г/|0|}-Целевая функция (функционал, классификатор) Ф:£)хС -» {-1, 1}, определяющая для каждой пары <документ, категория> соответствие их друг другу, не известна. Требуется найти классификатор Ф', т.е. функцию, максимально близкую к функции Ф [43]. Если пересечение двух категорий пусто, то классификация бинарная, которая часто используется в фильтрации спама.
Если имеются образцы из каждой категории (объекты), про которые заранее известно, к какой категории они принадлежат, то такие задачи называются обучением с учителем, а известные данные называют обучающей выборкой. Если категории изначально не заданы, то встает еще и задача кластеризации.
Машинное обучение предполагает наличие обучающей и контрольной выборки, т.е. дана начальная коллекция документов /2 = {г/ь Ло, ■■■Лц}аВ, где значения целевой функции Ф известны для V (с/„ сЦе/2 хС. Эта коллекция /2 разбивается на два непересекающихся множества. Классификатор Ф обучается индуктивно на основе выявленных характеристик документов [43].
В зависимости от результата различают два типа классификации:
Точная, т.е. документ однозначно относится к той или иной категории Ф': 22хС ->{-1,1}.
Ранжированная, если документ относится к категории с некоторой вероятностью Ф': ОхС ->{-1,1}.

Рекомендуемые диссертации данного раздела

Время генерации: 0.123, запросов: 967