Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей

Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей

Автор: Неелова, Наталия Валериевна

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Тула

Количество страниц: 168 с. ил.

Артикул: 5381011

Автор: Неелова, Наталия Валериевна

Стоимость: 250 руб.

Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей  Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей 

Содержание
Введение
Глава 1. Проблема обнаружения и определения авторства схожих документов
1.1 Информационный поиск и задача распознавания дублей.
1.2 Задача распознавания схожих документов.
1.3 Определение понятия схожих документов
1.4 Источники схожих документов
1.5 Основные метрики подобия документов
1.6 Методы обнаружения схожих документов.
1.7 Предварительная обработка документов.
1.8 Варианты классификации поисковых запросов
1.9 Кластеризация и классификация документов.
1. Структурносемантическое разбиение.
1. Борьба с плагиатом.
1. Постановка задачи обнаружения дублей и выделения первичного
документа
1. Выводы.
Глава 2. Разработка модели оценки схожести документов и определения первичного документа в кластере дублей.
2.1 Модель представления документов блоками
2.2 Модель классификации запросов и степень фильтрации дублей
2.3 Метод экспертных оценок для градации i фильтрации дублей
2.4 Метод определения дублей при i фильтрации.
2.5 Методы i фильтрации дублей.
2.6 Структурная схема модели определения дублей
2.7 Методы оценки эффективности алгоритмов поиска дубликатов
2.8 Определение первичного документа в кластере дублей.
2.9 Выводы.
Глава 3. Алгоритмизация процессов детектирования дублей и определения первичного документа
3.1 Алгоритмы разбиения страниц на семантические блоки.
3.2 Классификация запросов.
3.3 Алгоритм градации при i фильтрации
3.4 Алгоритм определения дублей при i фильтрации
3.5 Алгоритмы для i фильтрации.
3.6 Алгоритмы определения первичного документа.
3.7 Выводы
Глава 4. Программная реализация методов фильтрации дублей и определения первичного документа.
4.1 Структура программного обеспечения
4.2 Программная реализация
4.3 Графический интерфейс.
4.4 Последовательность работы с программой
4.5 Результаты практической апробации разработанных подходов
4.6 Выводы
Заключение.
Литература


В первой главе проводится анализ современных методов обнаружения схожих текстов, в целом, и их применение к области web-документов, в частности. Рассматриваются инструменты борьбы с незаконным копированием и распространением контента в Интернете. Выделяются основные метрики подобия и оценки эффективности методов. Во второй главе решается задача выявления схожих web-документов при online и offline фильтрации. Предлагается метод фильтрации документов на основе оценки сниппетов по модифицированной формуле Джаккарда с учетом степени фильтрации в зависимости от типа запроса. Строится математическая модель offline фильтрации с учетом представления web-документа структурно-семантическими блоками. Offline фильтрация - каскад фильтров, позволяющих определять тексты, образованные путем изменения оригинала (синонимическая замета, перестановка слов, сгенерированный контент, объединенный контент из разных источников и т. Описывается модель выделения первичного документа из кластера web-дублей с пояснением выбора параметров аккумулирующего выражения. В третьей главе проводится алгоритмизация процедуры классификации и градации типов запросов при online фильтрации, процедуры определения схожести на основе модифицированного коэффициента Джаккарда. Также под задачи детектирования дублей адаптирован алгоритм определения авторства, который в данном случае позволяет определить составной контент из разных источников. Описывается определение вероятности авторства с применением алгоритма сжатия данных, выводится выражение, позволяющее оценить удобство использования сайта, рассматривается алгоритм, оценивающий полноту тематики всего ресурса web-документа. Также подбираются оптимальные значения коэффициентов общего выражения определения первичного документа. В четвертой главе описывается структура программного обеспечения, позволяющего экспериментально проверить эффективность разработанных моделей и алгоритмов. Приводится общее описание разработанного программного комплекса «Комплекс фильтрации дублей и определения первичного web-документа», рассматривается его графический интерфейс и функциональные возможности. Проводится экспериментальная проверка методов online фильтрации с учетом типа запроса, offline фильтрации на всей цепочки фильтров, а также метода определения первичного документа. В заключении формулируются научные и практические результаты диссертационного исследования. Прилагается список использованных литературных источников. Глава 1. Интернет стал неотъемлемой частью повседневной жизни. Количество Интернет пользователей неуклонно растет []. Использование Интернета условно можно разделить на две категории - источник получения информации и средство общения. Первое направление в настоящий момент превалирует над вторым и непосредственно связано с информационным поиском. Термин «информационный поиск» был впервые введен в году Кельвином Муром [2]. На сегодняшний день информационный поиск -большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела. Популярность развития данной науки обусловлено в первую очередь экспоненциальным ростом объемов информации, в частности в сети Интернет []. С развитием науки расширяется список выполняемых задач и усложняется их уровень. Если классическая задача информационного поиска формулируется как поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов, то сегодня список задач включает вопросы моделирования, классификации, фильтрации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, развития языка запросов и механизмов извлечения информации [0]. Также расширился список видов поиска: поиск документов, поиск звука и видео, поиск в гипертекстовых базах данных []. Расширение списка задач связано с обозначением все новых проблем в информационном поиске. Для осуществления процесса поиска были разработаны поисковые системы, имеющие трехуровневую архитектуру [].

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.249, запросов: 244