+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Разработка математического обеспечения оценки схожести WEB-документов на основе структурно-семантического разбиения

  • Автор:

    Косинов, Дмитрий Иванович

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2008

  • Место защиты:

    Воронеж

  • Количество страниц:

    146 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Содержание
Введение
Глава 1. Проблема обнаружения схожих документов
1.1. Задача распознавания схожих документов

1.2. Определение понятия схожих документов
1.3. Источники схожих документов в Интернете
1.4. Основные метрики подобия документов
1.5. Методы обнаружения схожих документов
1.6. Методы кластеризации
1.7. Предварительная обработка документа
1.8. Постановка задачи
Глава 2. Моделирование системы оценки схожести документов на уровне блоков
2.1. Модель представления web-документа
2.2. Метод выделения блоков из web-документа
2.3. Метод оценки схожести блоков
2.4. Подходы к формализации нечеткости знаний о схожести документов
2.5. Метод оценки схожести web-документов
2.6. Выводы
Глава 3. Алгоритмизация процедуры оценки схожести web-до-кументов на уровне блоков
3.1. Алгоритмы разбиения web-страниц на блоки
3.2. Алгоритмы создания единого отпечатка на основе локальных параметров документа

3.3. Выводы

Глава 4. Программная реализация метода оценки схожести veb-
документов
4.1. Структура программного обеспечения
4.2. Программная платформа
4.3. Программная реализация
4.4. Графический интерфейс
4.5. Последовательность работы с программой
4.6. Тестирование программы
4.7. Результаты практической апробации метода оценки схожести тееЬ-документов на уровне составляющих их блоков
4.8. Выводы
Заключение
Литература
Приложение А. Соответствие НТМЬ-тегов узлам дерева
Приложение Б. Классификация видов блоков
Приложение В. Описание тестовой коллекции А
Приложение Г. Результаты эксперимента по использованию локальных параметров документов при создании отпечатков
Приложение Д. Результаты эксперимента по оценке качества определения схожих документов на уровне блоков
Приложение Е. Список классов программного модуля

Приложение Ж. План тестирования приложения

ного языка. Если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота п-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру п (так называемому рангу этого слова). Иначе говоря, слова, встречающиеся реже, имеются большее смысловое значение.
На основе законов Ципфа слова, встречающиеся наиболее часто (например, междометия, предлоги, суффиксы и т.д.), считаются шумовыми словами (стоп-словами) и не принимаются в рассмотрение.
• Стемминг. Под стеммингом понимается выделение значащей части слова, то есть приведение к единому корню. При этом отбрасываются окончания и суффиксы. Существует множество вариаций стемминга [55], но наиболее распространенный их них алгоритм Портера [73]. Его реализации на данный момент существуют для всех широко используемых языков.
1.8. Постановка задачи
В ходе изучения предметной области было отмечено, что традиционная процедура подготовки документа к созданию отпечатка заключается в конкатенации всего текстового содержимого и последующей обработке, невзирая на принадлежность текста к какому-либо логическому сегменту документа.
Путем проведения аналогии с работой [2], авторы которой добились некоторого улучшения результатов смежной задачи информационного поиска путем отделения навигационной части web-cтpaницы от содержательной, и опираясь на показанное выше увеличение содержательности отпечатков при уменьшении размера документов было сформулировано предположение:

Рекомендуемые диссертации данного раздела

Время генерации: 0.111, запросов: 967