Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов

Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов

Автор: Глазкова, Валентина Владимировна

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Москва

Количество страниц: 103 с. ил.

Артикул: 4135072

Автор: Глазкова, Валентина Владимировна

Стоимость: 250 руб.

Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов  Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов 

1.1 ПОСТАНОВКА ЗАДАЧИ И ТРЕБОВАНИЯ К РЕШЕНИЮ.
1.2 Обзор методов классификации многотемных документов
1.2.1 Критерии сравнения методов
1.2.2 Методы, основанные на оптимизационном подходе.
1.2.2.1 Метод
1.2.2.2 Метод АрТВоо.М.
1.2.2.3 Метод МЬШИ на основе алгоритма кбпижайших соседей и принципа максимизации апостериорных вероятностей.
1.2.2.4 Метод на основе модели смешивания, обученной с номотыо метода максимизации математического ожидания.
1.2.3 Методы, основанные на декомпозиции в набор независимых бинарных проблем.
1.2.4 Методы, основанные на подходе ранжирования с последующим отсечением нерелевантных классов
1.2.4.1 Метод Ми1йс1аМи1и1аЬс1 РсгссрИоп
1.2.4.2 Метод кближайших соседей
1.2.4.3 Метод ЛапкЗУМ
1.2.4.4 Методы отсечения нерелевантных классов.
1.3 ВЫВОДЫ
ГЛАВА 2. РЕШЕНИЕ ЗАДАЧИ КЛАССИФИКАЦИИ МНОГОТЕМНЫХ ДОКУМЕНТОВ НА ОСНОВЕ ПОДХОДА ПОПАРНЫХ СРАВНЕНИЙ
2.1 Сгруктура предложенного решения.
2.2 ТРАДИИОННЫЙ ПОДХОД НА ОСНОВЕ ПОПАРНЫХ СРАВНЕНИЙ ДЛЯ ВЗАИМНО ИСКЛЮЧАЮЩИХ КЛАССОВ.
2.3 Предложенный метол ранжирования на основе попарных сравнений для существенно
ПЕРЕСЕКАЮЩИХСЯ КЛАССОВ
2.4 Предложенные методы ОТСЕЧЕНИЯ НЕРЕЛЕВАНТНЫХ КЛАССОВ.
2.4.1 Метод, основанный на пороговой функции в пространстве релевантностей классов
2.4.2 Метод, основанный на предположении о существовании линейной зависимости функции классификации от функции ранжирования
2.5 ДООБУЧЕНИЕ МЕТОДА КЛАССИФИКАЦИИ.
2.6 Экспериментальная оценка предложенного решения на эталонных наборах данных
2.6.1 Описание тестовых данных
2.6.2 Сравнение эффективности методов отсечения нерелевантных классов.
2.6.3 Сравнение эффективности методов классификации многотемных документов
2.7 ВЫВОДЫ
ГЛАВА 3. МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ГИПЕРТЕКСТОВЫХ ДОКУМЕНТОВ.
3.1 Постановка задачи и требования к решению
3.2 Обзор методов построения модели представления гипертекстовых документов.
3.2.1 Критерии сравнения моделей представления
3.2.2 Выделение признаков в гипертекстовых документах.
3.2.2.1 Метод ключевых слов
3.2.2.2 Метод Т4фамм
3.2.2.3 У чСт окружения гипертекстовых доку.чщгтоп.
3.2.3 Меры сходства для документов
3.2.3.1 Частотная мера сходства
3.2.3.2 Мера сходств кэрссиит
3.2.4 Выводы
3.3 МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ГИПЕРТЕКСТОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ ЧАСТЫХ КОМБИНАЦИЙ ПРИЗНАКОВ С УЧЕТОМ ГИПЕРССЫЛОК.
3.3. Предложенный метод учта гиперссылок при представлении гипертекстовых документов
3.3.2 Предложенный метод построения модели представления на основе выделения частых эпизодов признаков
3.3.3 Дообучение метода построения модели представления документов
3.3.4 Экспериментальная оценка предложенного решения на эталонных наборах данных
3.3.4.1 Описание тестовых данных.
3.3.4.2 Оценка эффективности предложенной модели представления
3.3.4.3 Сравнение эффективности методов выделения признаков.
3.3.4.4 Оценка эффективности разработанного метода классификации с разработанной моделью представления документов
3.4 ВЫВОДЫ
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЙ МОДУЛЬ КЛАССИФИКАЦИИ МНОГОТЕМНЫХ ГИПЕРТЕКСТОВЫХ ДОКУМЕНТОВ
4.1 Требования к нюграммным средствам классификации многотемных гипертекстовых ДОКУМЕНТОВ.
4.2 АРХИТЕКТУРА ЭКСПЕРИМЕНТАЛЬНОГО МОДУЛЯ.
4.2.1 Компонент лексического анализа
4.2.2 Компонент вычисления меры сходства
4.2.3 Классификатор.
4.2.4 Свойства разработанной архитектуры
4.3 Сценарии функционирования модуля
4.3.1 Обучение
4.3.2 Классификация.
4.3.3 Дообучение и добавление темы
4.3.4 Удаление темы.
4.4 Особенности программной реализации модуля классификации
4.5 Исследование производительности модуля и результаты экспериментов.
4.6 Выводы
ЗАКЛЮЧЕНИЕ .
ЛИТЕРАТУРА


В данной задаче время классификации запрашиваемых пользователями чуеЬстраниц является критичным и не должно вносить задержки в интерактивный режим работы конечных пользователей. В задаче мониторинга документооборота пользователей и предотвращения утечек конфиденциальной информации необходимо определять категории документов, с которыми работают пользователи, и анализировать трафик пользователей с целью обнаружения и предотвращения доступа к конфиденциальным данным таким как информация о корпоративных сетях, персональная информация пользователей и т. Актуальность данной задачи обоснована тем, что порядка внутренних угроз в организациях составляет нарушение конфиденциальности информации . Набор конфиденциальных категорий определяется спецификой конкретной организации и политиками безопасности, а передаваемые документы являются многотемными относительно этих категорий рис. Производительность программных средств классификации при решении данной задачи также является критичной, поскольку конечные пользователи не должны замечать задержки, связанные с категоризацией и анализом передаваемых ими документов. Рисунок 4. Задача предотвращения утечек конфиденциальной информации. В задаче автоматизированного модерирования Интернетресурсов в качестве классифицируемых объектов выступают сообщения на дискуссионных форумах, досках объявлений, новостных порталах, редактируемых пользователями, и т. Каждое сообщение может одновременно затрагивать многие сферы интересов пользователей, и соответственно, может быть отнесено сразу к нескольким категориям. Определяя эти категории, можно, например, выявлять несоответствия сообщений определнным тематикам форума и перемещать сообщения в наиболее релевантные для них тематики, а также обнаруживать факты спама. Отметим, что требования к производительности средств классификации при решении данной задачи высоки, поскольку поступающие сообщения должны классифицироваться с такой скоростью, чтобы пользователи Интернетресурса при этом могли работать в интерактивном режиме. Таким образом, во всех перечисленных задачах возникает необходимость решения задачи классификации, причем классифицируемый документ имеет многотемную природу, и для принятия решения необходимо знать набор всех классов, релевантных для документа. Существующие решения для рассматриваемых приложений основаны на сведении их к совокупности задач традиционной i классификации с последующим применением соответствующих методов. Настоящая работа посвящена исследованию использования методов классификации многотемных i документов для решения обозначенных прикладных задач. Для решения перечисленных прикладных задач требуется применение методов классификации на основе машинного обучения, поскольку состав и содержимое анализируемых документов постоянно изменяется, и одним из путей адаптации к этой динамике является использование таких методов. Цель методов машинного обучения для задачи классификации многотемных документов заключается в построении модели классификации на основе обучающего набора и применении построенной модели для предсказания набора классов, релевантных для нового документа 5 рис. Рисунок 5. Классификация многотемных документов на основе машинного обучения. Обучающий набор для рассматриваемой задачи классификации состоит из документов, каждому из которых сопоставлено множество релевантных классов рис. Под документами и классами в обозначенных приложениях будем подразумевать некоторые обобщнные понятия, которые различаются для разных прикладных задач. В качестве документов будут выступать уеЬстраницы, электронные письма, сообщения на форумах, досках объявлений, новостных порталах и т. Рисунок 6. Обучающий набор для задачи классификации многотемных документов. В рассматриваемых прикладных задачах обучающие наборы имеют достаточно большой размер, ввиду чего при решении этих задач необходимо применение методов классификации с возможностью дообучения без необходимости хранения обучающего набора i i, пошаговое обучение 6,,. При пошаговом обучении обучающие данные подаются алгоритму последовательно по одному примеру на каждом шаге обучения, и на последующих шагах алгоритм использует только новые обучающие примеры.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.298, запросов: 244