Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик

Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик

Автор: Суровцова, Татьяна Геннадьевна

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Петрозаводск

Количество страниц: 134 с.

Артикул: 4169888

Автор: Суровцова, Татьяна Геннадьевна

Стоимость: 250 руб.

Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик  Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик 

Оглавление
ВВЕДЕНИЕ.
ГЛАВА 1. МАТЕМАТИЧЕСКИЕ МЕТОДЫ ДЛЯ ВЫДЕЛЕНИЯ ГРУПП ТЕКСТОВ.
1 Использование кластерного анализа.
1.1 Метод кластеризации.
1.2 Метод иерархической кластеризации.
1.3 Классификация на основе полученных кластеров
2 Методы для исследования переходов между сос тавляющими единицами текста
2.1 Метод сильного графа
2.2 Метод подсчета отличий между матрицами переходов
3 Методы, основанные на проверке статистических гипотез
3.1 Общее распределение частей речи.
3.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 0 слов.
3.3 Общее распределение длины слова.
3.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в предложений.
3.5 Общее распределение длины предложения.
3.6 Лексический спектр текста па уровне словаря.
3.7 Лексический спектр текста на уровне текста
3.8 Индекс разнообразия лексики.
4 Метод, основанный на индуктивном построении классификаторов.
4.1 Описание метода.
5 Сравнение методов и их совместное применение.
5.1 Комитеты классификаторов
5.2 Методика построения статистического критерия на основе классификатора
ЗАКЛЮЧЕНИЕ К ПЕРВОЙ ГЛАВЕ.
ГЛАВА 2. ОПИСАНИЕ ИНФОРМАЦИОННОАНАЛИТИЧЕСКОЙ СИСТЕМЫ ДЛЯ АНАЛИЗА ЛИИГВОСТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ЛИТЕРАТУРНЫХ ПРОИЗВЕДЕНИЙ.
1 Цели и задачи разработки информационноаналитической СИСТЕМЫ.
1.1 Описание ПК СМАЛТ.
1.2 Информационноаналитическая система для анализа лингвостатистических характеристик литературных произведешь
2 Описание информационной системы
2. 1 Организация и основные принципы работы информационноаналитической системы.
2.2 Описание архитектуры информационноаналитической системы
2.3 Интерфейс пользователя
2.3 Описание модулей
2.4 Описание структуры базы данных
2.5 Описание использованного программного обеспечения.
3 Описание спецификации на основе языка X
3.1 Цели разработки спецификации
3.2 Описание спецификации на основе языка X.
3.3 Выводы и дальнейшее использование формата.
ЗАКЛЮЧЕНИЕ КО ВТОРОЙ ГЛАВЕ
ГЛАВА 3. РЕЗУЛЬТАТЫ ПРИМЕНЕНИЯ ИНФОРМАЦИОННОАНАЛИТИЧЕСКОЙ СИСТЕМЫ.
1 Описание материала для исследования.
2 Использование методов кластерного анализа
2.1 Метод кластеризации.
2.2 Метод иерархической кластеризации.
2.3 Дальнейшая обработка данных.
2.4 Заключение.
3 Использование методов для исследования переходов между
СОСТАВЛЯЮЩИМИ ЕДИНИЦАМИ ТЕКСТА
3.1 Выбор характеристик для анализа.
3.2 Построение сильных графив произведений и их анализ
3.3 Метод подсчета отличий между матрицами переходов синтаксических классов
3.4 Заключение
4 Использование методов, основанных на проверке статистических гипотез.
4.1 Общее распределение частей речи на различных позициях предложения.
4.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 0 слов.
4.3 Общее распределение длины слова.
4.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в предложений.
4.5 Общее распределение длины предложения.
4.6 Лексический спектр на уровне словаря и на уровне текста
4.7 Индекс разнообразия лексики.
4.9 Заключение
5 Использование метода, основанного на индуктивном построении классификаторов.
5.1 Рассматриваемые лингвостатистические характеристики
5.2 Формирование обучающей и тестовой выборок.
5.3 Построение классификатора.
5.4 Проверка гипотез об авторстве на основе построенного
классификатора
5.5 Заключение.
ЗАКЛЮЧЕНИЕ К ТРЕТЬЕЙ ГЛАВЕ
ОСНОВНЫЕ ВЫВОДЫ И РЕКОМЕНДАЦИИ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ


Этап проверки гипотезы и интерпретации результатов может выполняться и методами прикладной лингвистики с использованием процедур статистиковероятностного анализа, теории классификации, теории распознавания образов и других математических методов. Но при этом надо понимать, что статистиковероятностные методы, применяемые при атрибуции, используются только для проверки гипотезы и никакой самостоятельной роли не играют. Таким образом, положительное решение по вопросу атрибуции текста может быть принято только в случае совпадения результатов филологического и математикостатистического анализа. Этот подход используется в данной работе при рассмотрении результатов тех или иных методов при проведении атрибуции текстов. Возможность применения математических методов при атрибуции авторства обеспечивает принятое в стилистике понятие стиля, которое исследовалось в частности академиком В. Истоки изучения текстов с использованием математики можно увидеть еще в занятиях кабалистов, которые видели скрытый смысл письменных знаков, если их отобразить цифрами. Первым источником, в котором упоминается использование численных методов при исследовании литературных произведения, считается письмо шотландского математика Огастеса Моргана написанное в , в котором он рассказывает о своих вычислительных опытах, проводимых им при изучении Нового Завета, и делает предположение о том, что один человек напишет о разных вещах более похоже, чем разные люди об одном и том же. Он предложил сравнить среднее число букв в греческом тексте Послания к Евреям i со средним значением в других посланиях Павла . Таким образом, в то время основной интерес лежал в области определения авторства книг Ветхого и Нового завета, изучения произведений авторов школы Платона, Аристотеля, Гомера и Шекспира, и многое другое. Сравнивались легко вычисляемые характеристики, такие как длины слов, предложений, предпочтения в использовании служебных слов. В восьмидесятые годы XIX века было предпринято множество попыток описания особенностей литературного стиля с помощью таблиц и графиков, самой заметной стало произведение американского физика Томаса Мандельхолл Характеристические кривые композиции, в котором он рассматривал распределения длины слов и частоты букв в текстах Бэкона, Шекспира, Марлоу . В качестве основных работ, которые были посвящены стилсметрии у1отеиу, в России в докомпьютерный период для решения задач атрибуции, можно привести исследования начала XX века Николая Александровича Морозова . В статье, вышедшей в году и названной Лингвистические спектры, Н. А. Морозов характеризует свой метод как средство для отличения плагиата от истинных произведений того или иного известного автора . Идею метода Морозов заимствует у немецких исследователей XIX века В. Диттербергера и К. Риттера, которые изучали спорные тексты среди них тексты, приписываемые Платону, Гте и др. Причем в качестве счетных единиц выбирались наиболее подвижные и легко заменяющиеся синонимами элементы языка. Интересна реакция на эту статью крупнейшего отечественного ученого А. А. Маркова, который, ссылаясь на свой опыт, изучения текста Евгения Онегина, а также на результаты повторенных им исследований тех же текстов, что служили материалом анализа для Ы. А. Морозова, показал, что выводы последнего не достоверны, так как были получены на текстах недостаточного объема . В русской и советской литературе много вопросов связанных с атрибуцией текстов. Например, древнерусские тексты, летописи, которые создавались в Древней Руси анонимными и псевдонимными летописцами. XIX века стали годами восстания псевдонимов изза гонений связанных с восстанием декабристов, оставили миру целый ряд произведений с неизвестным и приписываемым авторством. В конце XIX века русская публицистика также очень часто была анонимна или подписывалась псевдонимами. Тогда же появились первые фабрики по производству романов, явление широко распространенное и в наши дни. В современной литературе наиболее известным вопросом остается авторство Тихого Дона. Большинство современных методов определения авторства, так или иначе, основаны на анализе лингвостатистических числовых характеристик, вычисляемых по тексту.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.252, запросов: 244