Система защиты от массовых несанкционированных рассылок электронной почты на основе методов Data Mining

Система защиты от массовых несанкционированных рассылок электронной почты на основе методов Data Mining

Автор: Розинкин, Андрей Николаевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 110 с. ил.

Артикул: 2975667

Автор: Розинкин, Андрей Николаевич

Стоимость: 250 руб.

Система защиты от массовых несанкционированных рассылок электронной почты на основе методов Data Mining  Система защиты от массовых несанкционированных рассылок электронной почты на основе методов Data Mining 

ВВЕДЕНИЕ
ГЛАВА 1. КОНЦЕПЦИИ ПОСТРОЕНИЯ ОБУЧАЕМОЙ СЕРВЕРНОЙ СИСТЕМЫ ФИЛЬТРАЦИИ ПОЧТЫ
1.1 ВЫБОР БАЗОВОГО МЕТОДА КЛАССИФИКАЦИИ.
1.1.1 Фильтрация почты, как задача классификации
1.1.2 Модели представления объектов для задачи классификации
1.1.2.1 Выделение признаков объектов.
1.1.2.2 Определение весовых коэффициагтов признаков
1.1.3 Методы классификации
1.1.3.1 iv
1.1.3.2 к ближайших соседей.
1.1.3.3 Линейный дискриминант Фишера
1.1.3.4 Нейронные сети.
1.1.3.5 Метод опорных векторов.
1. 1.4 Оценка методов классификации.
1.1.5 Выбор базового метода классификации.
1.2 ВЫБОР АРХИТЕКТУРЫ СИСТЕМНОГО РЕШЕНИЯ
1.2.1 Архитектура серверных систем фильтрации спама.
1.2.2 Архитектура персонализированной обучаемой системы фильтрации почты серверного уровня
1.2.2.1 Функциональные стадии обучаемой системы классификации
1.2.2.2 Особенности архитектуры
1.3 ВЫВОДЫ И РЕЗУЛЬТАТЫ.
ГЛАВА 2. МОДИФИКАЦИЯ И ОРГАНИЗАЦИЯ ИСПОЛЬЗОВАНИЯ МЕТОДА ОПОРНЫХ ВЕКТОРОВ ИМИММММ1МММ1М1ММ1ММММММММММММММММ
2.1 Модель представления данных.
2.1.1 Выбор модели представления данных.
2.1.2 размерности пространства признаков
2.1.3 Экспериментальное обоснование метода сокращения пространства признаков
2.1.4 Выбор меры сходства потенциальной функции.
2.2 Сокращение примеров тренировочного набора.
2.2.1 Предлагаемое решение
2.2.2 Кластеризация тренировочного набора.
2.2.3 Экспериментальная проверка
2.3 Борьба с шумом в тренировочном наборе.
2.3.1 Постановка проблемы.
2.3.2 Решение.
2.3.3 Определение функции принадлежности
2.3.4 Эксперимент.
2.4 ВЫВОДЫ И РЕЗУЛЬТАТЫ.
ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
3.1 АРХИТЕКТУРА СИСТЕМЫ.
3.2 ПОЛЬЗОВАТЕЛЬСКИЙ ИНТЕРФЕЙС
3.2.1 Фу нкциональные особенности.
3.2.1.1 Настройки обучения.
3.2.1.2 Настройки классификации
3.2.1.3 Обучение и дообучение
3.2.1.4 Чсрнысбслыс списки адресов отправителей.
3.2.1.5 Статистика обучения
3.3 ПРОПАММНАЯ РЕАЛИЗАЦИЯ
3.3.1 Концепция интеграции системы фильтрации с почтовыми системами.
3.3.2 Примеры интеграции с почтовыми системами
3.3.2.1 Игтсграция с i и xi
3.3.2.2 Интеграция с i .
3.3.2.3 Иггсграция с i x .
3.3.3 Программные модули, статистика
3.3.4 Апробация экспериментальной системы.
3.4 ВЫВОДЫ И РЕЗУЛЬТАТЫ.
ГЛЛВЛ 4. СРАВНИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ.
4.1 МЕТРИКИ ОЦЕНКИ КАЧЕСТВА ФИЛЬТРАЦИИ
4.2 Наборы данных.
4.2.1 i
4.2.2 i
4.3 Сравнительные тесты.
а 4.3.1 Сравнение iv i
4.3.1.1 Тестовые наборы
4.3.1.2 Результаты тестирования
4.3.1.3 Выводы.
4.3.2 Сравнение iv Лаборатория Касперского.
4.3.2.1 Тестовые наборы данных.
4.3.2.2 Сценарий эксперимента
4.3.2.3 Результаты сравнения.
4.3.2.4 Выводы.
4.3.3 Сравнение с i
4.3.3.1 Организация входящего потока писем.
4.3.3.2 Характсрисгики и настройки фильтров
4.3.3 Характеристики наборов для первоначального обучения.
4.3.3.4 Характеристики настройки фильтров
4.3.3.5 Ко1ггролнрусмыс параметры
4.3.3.6 Кстггроль и сбор результатов, дообучение.
4.3.3.7 Результаты эксперимента.
4.4 Оценка производительности
4.4.1 Оценка производительности алгоритма классификации.
4.4.2 Оценка производительности экспериментальной системы фильтрации почты.
ЗАКЛЮЧЕНИЕ .
ЛИТЕРАТУРА


Тем не менее, проводившиеся эксперименты ноказывают[] невысокую эффективность таких методов (-%) при достаточно высоком уровне ложно положительных ошибок (2,3-4,1%). Следующим распространенным методом предотвращения спама является метод обнаружения повторов, основанный на свойстве массовости писем в рассылке и их схожести. Такие методы подразумевают, что рассылка продолжается долгое количество времени, поэтому если обнаружить се в самом начале, то после этого времени конкретно эту рассылку можно было бы блокировать. Symantec Brightmail Anti-Spam) []. Вне зависимости от способа обнаружения рассылки идея метода такова, что для письма создается сигнатура (контрольная сумма), которая затем доставляется к системе фильтрации почты и используется для фильтрации писем. Для методов на основе обнаружения повторов характерны две существенные проблемы[]. Во-первых, это «персонализация» спама - каждое письмо в рассылке имеет незначительные отличия, за счет чего затрудняется построение устойчивых сигнатур. Для решения этой проблемы используются различные устойчивые сигнатуры, например, реализованный в системе Яндскс. Почта метод шииглов[9, ]. Вторая проблема - это обнаружение легальных рассылок. Еще один распространенный метод, применяемый в системах фильтрации почты, использует для обнаружения спама эвристические правша и шаблоны. Основывается на анализе сообщения и поиске в нем специфических признаков, характеризующих письмо как спам. Это могут быть как формальные признаки, типичные для писем со спамом, такие как, например, отсутствие отправителя или получателя письма. Так и семантические, проверяющие наличие в письме определенных фраз, словосочетаний, оборотов, приемов маскировки с помощью языка разметки документов и так далее. В современной системе, основанной на таких методах, содержится тысячи и десятки тысяч правил и шаблонов. Весовые коэффициенты для них определяются, например, с помощью генетических алгоритмов на тестовой выборке, либо вручную. Базы знаний для таких систем создаются и поддерживаются вручную. Эффективность системы, основанной на таких методах, ключевым образом зависит от регулярности обновлений экспертной базы знаний и ее качества. Очевидно, что большинство семантических правил зависят от естественного языка, таким образом, система может быть ориентированна только на какой-либо локальный рынок и плохо работать в мультнязыковой среде. Рассмотрим достоинства и недостатки традиционных методов. Все методы основываются на той концепции, что данные, на основании которых производится анализ, готовятся в большинстве случаев сторонними поставщиками и являются одинаковыми для всех пользователей. Традиционные методы, как правило, не персонифицированы, т. Декларируется, что понятие спама является одинаковым для всех пользователей, что в корне неверно. То, что для одного пользователя является спамом, вполне может быть важной содержательной информацией для другого. Отсутствие персонализации понижает уровень обнаружения и влечет рост количества ложных срабатываний. При использовании традиционных методов возникает прямая зависимость от поставщиков обновлений баз знаний, на основании которых осуществляется фильтрация. Необходимо постоянно поддерживать базы знаний в актуальном состоянии. От регулярности обновлений напрямую зависит качество работы такой системы. Система привязана и зависима от оперативности конкретного сервиса - провайдера обновлений. Актуальным для традиционных методов является вопрос безопасности. Принципиальный момент в том, что решение о том, что есть спам, а что есть легальная почта, принимается третьей стороной. Это порождает несколько проблем безопасности. Третья сторона управляет тем, какую почту получает пользователь. Кроме того, от провайдера зависит и качество фильтрации почты. Для многих организаций такой подход к безопасности является недопустимым. Большинство систем, основанных на традиционных методах - национальные. Правила и шаблоны зависят от естественного языка, для которого они созданы. Сигнатуры создаются провайдерами обновлений для определенного рынка.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.219, запросов: 244