Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Косинов, Дмитрий Иванович
05.13.11
Кандидатская
2008
Воронеж
146 с. : ил.
Стоимость:
499 руб.
Содержание
Введение
Глава 1. Проблема обнаружения схожих документов
1.1. Задача распознавания схожих документов
1.2. Определение понятия схожих документов
1.3. Источники схожих документов в Интернете
1.4. Основные метрики подобия документов
1.5. Методы обнаружения схожих документов
1.6. Методы кластеризации
1.7. Предварительная обработка документа
1.8. Постановка задачи
Глава 2. Моделирование системы оценки схожести документов на уровне блоков
2.1. Модель представления web-документа
2.2. Метод выделения блоков из web-документа
2.3. Метод оценки схожести блоков
2.4. Подходы к формализации нечеткости знаний о схожести документов
2.5. Метод оценки схожести web-документов
2.6. Выводы
Глава 3. Алгоритмизация процедуры оценки схожести web-до-кументов на уровне блоков
3.1. Алгоритмы разбиения web-страниц на блоки
3.2. Алгоритмы создания единого отпечатка на основе локальных параметров документа
3.3. Выводы
Глава 4. Программная реализация метода оценки схожести veb-
документов
4.1. Структура программного обеспечения
4.2. Программная платформа
4.3. Программная реализация
4.4. Графический интерфейс
4.5. Последовательность работы с программой
4.6. Тестирование программы
4.7. Результаты практической апробации метода оценки схожести тееЬ-документов на уровне составляющих их блоков
4.8. Выводы
Заключение
Литература
Приложение А. Соответствие НТМЬ-тегов узлам дерева
Приложение Б. Классификация видов блоков
Приложение В. Описание тестовой коллекции А
Приложение Г. Результаты эксперимента по использованию локальных параметров документов при создании отпечатков
Приложение Д. Результаты эксперимента по оценке качества определения схожих документов на уровне блоков
Приложение Е. Список классов программного модуля
Приложение Ж. План тестирования приложения
ного языка. Если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота п-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру п (так называемому рангу этого слова). Иначе говоря, слова, встречающиеся реже, имеются большее смысловое значение.
На основе законов Ципфа слова, встречающиеся наиболее часто (например, междометия, предлоги, суффиксы и т.д.), считаются шумовыми словами (стоп-словами) и не принимаются в рассмотрение.
• Стемминг. Под стеммингом понимается выделение значащей части слова, то есть приведение к единому корню. При этом отбрасываются окончания и суффиксы. Существует множество вариаций стемминга [55], но наиболее распространенный их них алгоритм Портера [73]. Его реализации на данный момент существуют для всех широко используемых языков.
1.8. Постановка задачи
В ходе изучения предметной области было отмечено, что традиционная процедура подготовки документа к созданию отпечатка заключается в конкатенации всего текстового содержимого и последующей обработке, невзирая на принадлежность текста к какому-либо логическому сегменту документа.
Путем проведения аналогии с работой [2], авторы которой добились некоторого улучшения результатов смежной задачи информационного поиска путем отделения навигационной части web-cтpaницы от содержательной, и опираясь на показанное выше увеличение содержательности отпечатков при уменьшении размера документов было сформулировано предположение:
Название работы | Автор | Дата защиты |
---|---|---|
Модели и методы проектирования программных аналитических комплексов с декартово замкнутой категорией | Родионова, Людмила Евгеньевна | 2019 |
Методы и средства организации обработки потоковой информации на распределенных гетерогенных вычислительных комплексах | Телеснин, Борис Анатольевич | 2009 |
Управление физической памятью виртуальной машины | Мелехова, Анна Леонидовна | 2015 |