Разработка и исследование алгоритмов сравнения стилей текстовых произведений

Разработка и исследование алгоритмов сравнения стилей текстовых произведений

Автор: Шевелев, Олег Геннадьевич

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Томск

Количество страниц: 176 с. ил.

Артикул: 2901049

Автор: Шевелев, Олег Геннадьевич

Стоимость: 250 руб.

Разработка и исследование алгоритмов сравнения стилей текстовых произведений  Разработка и исследование алгоритмов сравнения стилей текстовых произведений 

ОГЛАВЛЕНИЕ
Введение.
1. Обзор методов и программ количественного анализа текстов и постановка задач исследований и разработок.
1.1. Проверка текстов на близость стилей или однородность по стилю.
1.2. Кластеризация текстов.
1.3. Классификация текстов.
1.4. Программные продукты
1.5. Постановка задач исследований и разработок
2. Методы и алгоритмы сравнения стилей текстов по частотным признакам.
2.1. Сравнение стилей текстов но частотам появления признаков на основе статистических критериев
2.1.1. Гипергсометрический критерий двусторонний точный критерий
Фишера
2.1.2. Критерий хиквадрат.
2.1.3. Сравнение распределений по критерию хиквадрат
2.1.4. Метод кластеризации текстов но частотным признакам
2.1.5. Примеры анализа текстов.
2.2. Классификация текстов с помощью деревьев решений
2.2.1. Алгоритм построения дерева решений
2.2.2. Оверфиттинг и отсечение.
2.2.3. Классификация по авторству. Влияние объемов фрагментов
2.2.4. Классификация но авторству. Влияние порога отсечения
2.2.5. Классификация по жанровым типам.
2.2.6. Классификация по источникам газет.
2.2.7. Оценка информативности признаков
2.3. Классификация текстов с помощью метода Хмелева и его модификаций
2.3.1. Проверка марковости текстов.
2.3.2. Мера Хмелева и альтернативные ей меры.
2.3.3. Классификация по авторству. Влияние объема фрагментов.
2.3.4. Классификация по жанровым типам.
2.3.5. Классификация по источникам газет.
2.4. Классификация текстов с помощью нейронных сетей прямого
распространения.
2.4.1. Нормализация данных
2.4.2. Алгоритм обучения.
2.4.3. Классификация по авторству. Вычислительные эксперименты.
2.5. Сравнение рассмотренных методов классификации.
2.6. Выводы
3. Инструментарий анализа стилей текстов СтилеАнализатор
3.1. Язык задания частотных признаков
3.1.1. Схема извлечения частотных признаков текстов
3.1.2. Формат запроса. Язык задания частотных признаков
3.1.3. Устройство интерпретатора языка.
3.2. Общая схема количественного анализа текстов в программе СтилеАнализатор
3.3. Работа с вертикальным текстом.
3.4. Предварительная обработка текстов.
3.5. Извлечение частотных признаков текстов
3.5.1. Пользовательский интерфейс
3.5.2. Привязка количественных данных к фрагментам текстов.
3.6. Предварительная обработка количественных данных.
3.7. Анализ частотных данных.
3.8. Выводы
Заключение.
Список использованной литературы


Имеется некоторый набор текстов. Необходимо сгруппировать эти тексты в соответствии с их схожестью (например, по стилям). Группировка может быть одноуровневой («плоской», с выделением кластеров, каждый из которых включает только тексты), либо иерархической, когда кластеры, объединяющие наиболее похожие тексты, сами объединены в кластеры, а кластеры кпаегеров - в другие кластеры и т. Принадлежность текста к кластеру на определенном уровне иерархии может быть однозначной (hard clustering - каждый текст принадлежит только одному кластеру), или неоднозначной (soft clustering - текст может принадлежать нескольким кластерам). Тексты для кластеризации представляются, как правило, в виде векторов значений признаков [, , , , 5, 5, 4, 5], но встречаются и другие представления текстов [, , , 3, 2]. Имеются подходы, в которых исходными данными для кластеризации являются не векторы текстов, а векторы признаков (например, слов), где каждый компонент вектора соответствует одному тексту (например, Word-base soft clustering - WBSC [4]). В рамках данной работы пас интересуют подходы, использующие векторы значений признаков. В качестве значений признаков, включенных в векторы, чаще всего выступают частоты появления определенных слов (или их нормальных форм) в текстах. Альтернативой частотам слов мог>т быть индикаторы появления слов (0 и 1) или значения, учитывающие среднюю встречаемость слова во всех текстах. В качестве меры близости текстов, представленных векторами значений признаков, обычно используется скалярное произведение векторов. Для кластеризации текстов по векторам значений признаков в основном используются известные методы кластерного анализа [4, , ] и искусственного интеллекта []: иерархические (метод ближайшего соседа, метод дальнего соседа, метод средней связи, центроидный метод и др. ЕМ-метод - Expectation maximization, SOM-сети и др. Суть иерархических методов кластеризации заключается в многократном сравнении близости в многомерном признаковом пространстве всех пар текстов и построении на основе этих сравнений иерархического описания (например, дерева кластеризации - дендрограммы). Существуют варианты методов, строящие иерархию сверху вниз (divisive - начальным кластером являются все тексты) и снизу вверх (agglomerative -первоначально каждый текст является отдельным кластером). Различие методов заключается также в способе измерении расстояния между кластерами. Достоинством этой группы мегодов является богатое представление результатов кластеризации: уровни иерархии дендрограммы позволяют видеть многие закономерности объединения данных, что особенно удобно при анализе таких сложных объектов как тексты. Недостатком иерархических методов является большая трудоемкость (0(iV2) или 0(/V'3) в зависимости от метода, где N - число текстов), что загрудняет их использование при кластеризации большого числа текстов. Методы иерархической кластеризации рассматриваются, например, в работе Лсу-ски и Крофт (Leouski A. V., Croft W. B.) [5]. В частности, в ней применяется метод ближайшего соседа, методы CLASSIT [], AGGLOM [], InClass для кластеризации статей из “Wall Street Journal” за год. В работе Beil F. Ester М. Xu X. FTC (Frequent Term-based text Clustering) для «плоской» кластеризации и HFTC (Hierarchical FTC) для иерархической кластеризации - и приводится их сравнение с двумя известными модификациями метода ^-средних. Сравнение проводится на различных корпусах текстов (базы веб-документов, статей новостного агентства Рейтер, газет из медицинских журналов и др. Другим примером кластеризации документов на основе иерархических методов является работа Cutting D. R., Karger D. R., Pedersen J. О., Tukey J. W. [], в которой рассматривается новый подход к извлечению текстовой информации на основе кластеризации текстов. Авторы предлагают в качестве альтернативы стандартному поиску подход пролистывания (browsing) текстов, так называемое рассеивание/сбор (scatter/gathering). Подход состоит в следующем. Первоначально проводится кластеризация всех имеющихся текстов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.250, запросов: 244