+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Разработка и исследование модели текста для его категоризации

  • Автор:

    Мордвинов, Алексей Вячеславович

  • Шифр специальности:

    05.13.01

  • Научная степень:

    Кандидатская

  • Год защиты:

    2010

  • Место защиты:

    Нижний Новгород

  • Количество страниц:

    159 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Содержание
Введение
Глава 1. Обзор предметной области и постановка задачи
1.1 Категоризация текстов: определение, виды, ограничения
1.2 Прикладное использование категоризации текстов
1.2.1 Автоматическое индексирование для систем извлечения информации
1.2.2 Организация и управление документами
1.2.3 Фильтрация текста
1.2.4 Определение значений многозначных слов на основе контекста
1.2.5 Иерархическая категоризация страниц в Интернете
1.3 Решение задачи категоризации текстов на основе машинного обучения
1.3.1 Инженерия знаний и машинное обучение
1.3.2 Машинное обучение: базовые понятия, задачи, алгоритмы
1.3.3 Применение техник машинного обучения в задаче категоризации текстов
1.4 Использование механизмов из области извлечения информации в жизненном цикле системы по категоризации текстов
1.4.1 Индексирование документа
1.4.2 Снижение размерности пространства элементов
1.4.3 Индуктивное построение текстовых классификаторов
1.4.4 Оценка классификаторов
1.5 Анализ этапов и методов построения системы категоризации документов.
Постановка задачи
Выводы к главе
Г лава 2. Разработка и описание модели текста
2.1 И-граммы как элементы модели
2.2 Алгоритм выбора М-грамм из текста
2.2.1 Распределение отобранных N-1 рамм по частоте в зависимости от значения N..
2.2.2 Зависимость количества отобранных алгоритмом N-грамм от длины документа
2.2.3 Динамика занесения Ы-граммы в словарь
2.2.4 Оценка сложности алгоритма отбора И-грамм
2.3 Древовидная модель текста. Спектры модели
2.3.1 Оценка сложности алгоритма построения спектра К-грамм
Выводы к главе
Глава 3. Использование разработанной модели в модульной системе категоризации текстов
3.1 Необходимость следования принципам модульного дизайна при разработке системы категоризации текстов
3.2 Моделирование текста в виде дерева Г-грамм с точки зрения модульного дизайна
3.2.1 Экспериментальная методика категоризации текстов
Выводы к главе
Глава 4. Программная реализация и оценка эффективности тестовой системы
категоризации текстов, использующей ТЧ-граммную модель текста
4.1 Описание тестовой программной системы
4.2 Описание условий проведенного эксперимента и его особенностей
4.3 Анализ результатов экспериментов по оценке эффективности системы категоризации текстов с использованием древовидной И-граммной модели

4.4 Сравнение эффективности систем категоризации текстов, использующих
представление текста в виде дерева ]4-грамм и вектора слов
Выводы к главе
Заключение
Литература
Приложение 1
Приложение 2
Приложение

Введение
Актуальность работы
За последние 10-15 лет задачи управления документами на основании их содержимого (обобщенное название извлечение информации) приобрели особенно важное значение в области информационных систем ввиду постоянно повышающейся доступности документов в цифровой форме и вытекающей отсюда необходимости получать к ним доступ максимально быстрыми и удобными способами. Одной из таких задач является категоризация текста (синонимы - классификация по категориям, определение тематики) - задача распределения текстов на естественном языке по тематическим категориям из заранее определенного набора. Появление задачи категоризации текстов (КТ) относится к началу 60-х годов прошлого века, но только в 90-х она приобрела свою истинную значимость благодаря возросшему прикладному интересу и доступности более мощных аппаратных средств. КТ сейчас применяется во многих контекстах, начиная от индексирования документов на основе контролируемого словаря, заканчивая фильтрацией документов, автоматической генерацией метаданных, заполнением иерархических каталогов УеЬ ресурсов, атрибуцией текстов неизвестных авторов и вообще в любых приложениях, требующих автоматизированной организации или диспетчеризации документов.
До конца 80-х наиболее популярным подходом к КТ, по крайней мере, в сообществе, занимающемся прикладными исследованиями, была инженерия знаний. Этот подход состоит в ручном задании набора правил на основании знаний экспертов о том, как классифицировать документы по заданным категориям. В 90-х этот подход стремительно утратил популярность (особенно в исследовательском сообществе) в пользу машинного обучения. В соответствии с этим подходом производится индуктивное автоматическое построение текстового классификатора с
в виде двоичного вектора (1 означает наличие элемента в документе, 0 -отсутствие). Выбор использования обычных или бинарных весов зависит от того какой алгоритм обучения классификатора используется. В случае не бинарного индексирования для определения веса м>к] элемента 1к в документе
<11 может быть использована любая техника индексирования из области
извлечения информации, которая представляет документ в виде вектора взвешенных элементов. Чаще всего применяется стандартная г/м'/' функция
[71, 73 - 76], определяемая как 1№Цк,(1])=#{1к,с11)Ло%-^^-, где #(/,,^)
$Тг(1к)
обозначает частоту элемента в документе с!,, а #7>(ц) обозначает число документов в обучающем множестве Тг, в которых встречается ц.. Данная функция реализует интуитивное понимание следующих фактов:
- Чем чаще элемент встречается в документе, тем более этот элемент важен для документа и тем лучше он отражает его содержание;
- Чем в большем количестве документов встречается элемент, тем менее значимым он является для категоризации.
Следует заметить, что эта формула (как и абсолютное большинство других) вычисляет значимость элемента для документа, оценивая лишь частоту его встречаемости, полагая несущественным порядок следования элементов в документе и их синтаксическое значение. Другими словами, семантика документа сводится к коллективной лексической семантике составляющих его элементов, композиционная же семантика не учитывается.
Для того, чтобы веса находились в интервале (0,1), а векторы документов имели равную длину, значения tfldf обычно нормализуются по
косинусу: ч/ц = ________ ■ 1 ==, где г - количество всех элементов в
обучающем множестве Тг.

Рекомендуемые диссертации данного раздела

Время генерации: 0.102, запросов: 967