Диссертация на тему "Разработка математического обеспечения оценки схожести WEB-документов на основе структурно-семантического разбиения", скачать бесплатно автореферат по специальности 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Содержание
Введение
Глава 1. Проблема обнаружения схожих документов
1.1. Задача распознавания схожих документов

1.2. Определение понятия схожих документов
1.3. Источники схожих документов в Интернете
1.4. Основные метрики подобия документов
1.5. Методы обнаружения схожих документов
1.6. Методы кластеризации
1.7. Предварительная обработка документа
1.8. Постановка задачи
Глава 2. Моделирование системы оценки схожести документов на уровне блоков
2.1. Модель представления web-документа
2.2. Метод выделения блоков из web-документа
2.3. Метод оценки схожести блоков
2.4. Подходы к формализации нечеткости знаний о схожести документов
2.5. Метод оценки схожести web-документов
2.6. Выводы
Глава 3. Алгоритмизация процедуры оценки схожести web-до-кументов на уровне блоков
3.1. Алгоритмы разбиения web-страниц на блоки
3.2. Алгоритмы создания единого отпечатка на основе локальных параметров документа

3.3. Выводы

Глава 4. Программная реализация метода оценки схожести veb-
документов
4.1. Структура программного обеспечения
4.2. Программная платформа
4.3. Программная реализация
4.4. Графический интерфейс
4.5. Последовательность работы с программой
4.6. Тестирование программы
4.7. Результаты практической апробации метода оценки схожести тееЬ-документов на уровне составляющих их блоков
4.8. Выводы
Заключение
Литература
Приложение А. Соответствие НТМЬ-тегов узлам дерева
Приложение Б. Классификация видов блоков
Приложение В. Описание тестовой коллекции А
Приложение Г. Результаты эксперимента по использованию локальных параметров документов при создании отпечатков
Приложение Д. Результаты эксперимента по оценке качества определения схожих документов на уровне блоков
Приложение Е. Список классов программного модуля

Приложение Ж. План тестирования приложения

ного языка. Если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота п-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру п (так называемому рангу этого слова). Иначе говоря, слова, встречающиеся реже, имеются большее смысловое значение.
На основе законов Ципфа слова, встречающиеся наиболее часто (например, междометия, предлоги, суффиксы и т.д.), считаются шумовыми словами (стоп-словами) и не принимаются в рассмотрение.
• Стемминг. Под стеммингом понимается выделение значащей части слова, то есть приведение к единому корню. При этом отбрасываются окончания и суффиксы. Существует множество вариаций стемминга [55], но наиболее распространенный их них алгоритм Портера [73]. Его реализации на данный момент существуют для всех широко используемых языков.
1.8. Постановка задачи
В ходе изучения предметной области было отмечено, что традиционная процедура подготовки документа к созданию отпечатка заключается в конкатенации всего текстового содержимого и последующей обработке, невзирая на принадлежность текста к какому-либо логическому сегменту документа.
Путем проведения аналогии с работой [2], авторы которой добились некоторого улучшения результатов смежной задачи информационного поиска путем отделения навигационной части web-cтpaницы от содержательной, и опираясь на показанное выше увеличение содержательности отпечатков при уменьшении размера документов было сформулировано предположение:

Название работы	Автор	Дата защиты
Методы, средства и алгоритмы автоматического извлечения фактов из китайских текстов	Юй Чуцяо	2018
Автоматическое обнаружение дефектов в многопоточных программах методами статического анализа	Моисеев, Михаил Юрьевич	2011
Методы и средства интегральной оценки тестированности программного проекта, позволяющие управлять процессом разработки тестов	Пинаев, Дмитрий Владимирович	1998

Электронная библиотека диссертаций

Разработка математического обеспечения оценки схожести WEB-документов на основе структурно-семантического разбиения

Рекомендуемые диссертации данного раздела