Методика и программный комплекс для идентификации автора неизвестного текста

Методика и программный комплекс для идентификации автора неизвестного текста

Автор: Романов, Александр Сергеевич

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Томск

Количество страниц: 149 с. ил. Прил.(88 с.: ил.)

Артикул: 4748804

Автор: Романов, Александр Сергеевич

Стоимость: 250 руб.

Методика и программный комплекс для идентификации автора неизвестного текста  Методика и программный комплекс для идентификации автора неизвестного текста 

ВВЕДЕНИЕ
1 Обзор подходов к идентификации автора неизвестного текста
1.1 Первые количественные методы.
1.2 Методы статистического анализа.
1.2.1 Статистические критерии.
1.2.2 Методы теории информации
1.2.3 Метод накопительных сумм
1.2.4 Метод главных компонент и линейный дискриминантный анализ .
1.3 Методы машинного обучения
1.3.1 Генетические алгоритмы
1.3.2 Метод к ближайших соседей.
1.3.3 Деревья решений.
1.3.4 Наивный байесовский классификатор.
1.3.5 Искусственные нейронные сети
1.3.6 Машина опорных векторов.
1.4 Сравнительный анализ методов идентификации автора
1.5 Выводы по главе
1.6 Постановка задач исследований и разработок.
2 Методика идентификации автора неизвестного текста
2.1 Обобщенная методика идентификации автора текста и формирования модели авторского стиля.
2.2 Модели представления текста в виде наборов признаков.
2.2.1 Модель Мешок слов.
2.2.2 Аграммные модели.
2.2.3 Сглаживающие модели.
2.3 Анализ структуры и характеристик текста
2.3.1 Характеристики текста, использующиеся для идентификации автора
2.3.2 Модель иерархической структуры текста.
2.4 Параметры классификаторов
2.5 Выводы по главе
3 Моделирование параметров авторского стиля .
3.1 Общее описание экспериментов. Алгоритм проведения экспериментов
3.2 Влияние количества и частотности признаков на точность идентификации автора.
3.3 Выбор типа ядрового преобразования машины опорных векторов.
3.4 Исследование характеристик текста в случае двух альтернатив
3.5 Исследование характеристик текста в многоклассовых задачах.
3.6 Сравнение времени обучения классификаторов.
3.7 Исследование точности идентификации на основе сочетаний характеристик текста.
3.8 Исследование техник сглаживания
3.9 Объединение полученных результатов. Использование ансамблей классификаторов
3. Решение практических задач на основе разработанной методики результаты внедрения. Идентификация автора короткого электронного сообщения
Идентификация автора короткого электронного сообщения.
Пример решения частной задачи идентификации автора
3. Рекомендации по практическому применению методики.
3. Выводы по главе 3.
4 Программный комплекс для идентификации автора письменной речи Лвторовед
4.1 Структура программного комплекса.
4.1.1 Подсистема сбора статистической информации.
4.1.2 База данных для хранения текстов и их характеристик
4.1.3 Подсистема формирования файлов для исследований
4.1.4 Аналитическая подсистема.
4.1.5 Подсистема представления результатов
4.2 Алгоритмическое обеспечение.
4.2.1 Общий алгоритм работы подсистемы сбора статистической информации
4.2.2 Алгоритм автоматического определения кодировки текста.
4.2.3 Алгоритм корректировки текста.
4.2.4 Алгоритмы разбора текста
4.2.4.1 Алгоритмы определения границ предложения
4.2.4.2 Алгоритм разбора предложения
4.2.5 Алгоритм морфологического анализа.
4.2.6 Алгоритмическое обеспечение Подсистемы формирования
4.2.6.1 Алгоритм выполнения подготовленных запросов для извлечения характеристик текста из БД.
4.2.6.2 Алгоритм формирования подготовленных для исследований файлов
4.3 Сравнение программного комплекса Авторовед с аналогами.
4.3.1 Анализ программного обеспечения в области определения авторства текстов.
4.3.2 Сравнение программного комплекса Авторовед с аналогами
4.4 Выводы по главе 4.
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ


Суть методов статистического аггализа с помощью статистических критериев можно описать следующим образом в исследовании определяется критическая граница сц. Проверяется две гипотезы Н если а сц,, то текст с высокой вероятностью принадлежит автору и Н2 если а ар, то текст с высокой вероятностью не принадлежит автору. По результатам проверки формулируется заключение. Проверка принадлежности спорных текстов автору с помощью критерия Стыодента проводится на основе средних значений некоторых характеристик текста например, средней длине слова в буквах или средней длине предложения в словах. Подготовительным этапом является объединение всех текстов автора в один. Затем исследуемые тексты разбиваются на выборки равного объема. Для каждого текста получают три характеристики число выборок п, значение среднего Щ в выборках и стандартное отклонение т,. Эти же операции проделываются с текстом, полученным в результате объединения всех имеющихся текстов, точно принадлежащих автору рассчитываются т2, у2 . Для правомерности использования теста выборки должны иметь нормальное распределение. В результате для каждого произведен и я получаются значения характеристики. Среди произведений, точно принадлежащих автору, выявляется то, значение критерия которого максимально. Из множества остальных произведений исключаются тексты, значение характеристики которых больше фиксированного. Гипотеза о том, что они написаны этим автором отвергается. Как и в предыдущем случае, все известные тексты автора объединяются в один. Затем используется непараметрический критерий КолмогороваСмирнова, измеряющий разницу между накопленными частотами в сравниваемых текстах. Л длина текстов в выбранных единицах словах, предложениях, относительно которых происходит подсчт. Для всех текстов получают значения Я. Среди текстов, точно принадлежащих автору, выбирается тот, значение Я для которого максимально Я,ЛХ. Из группы атрибутируемых статей исключаются те, которые имеют коэффициент Я больший, чем Хтах. Критерий Стыодента и КолмогороваСмирнова применял Гейер Хетсо. В году им была предпринята попытка исследования проблемы атрибуции ряда анонимных статей в журналах Время и Эпоха на предмет принадлежности их перу Ф. М. Достоевского . В результате статистического анализа, из спорных статей, предписываемых другими исследователями Достоевскому, Хетсо подтвердил его авторство в 5 случаях, ещ в 3 случаях подтвердились соавторство и редакционная правка. Для одной статьи однозначного ответа дать не удалось в виду е малого объема. Участие Достоевского в написании и редактировании ещ 3 статей не подтвердилось полностью. Позже методика Г. Хетсо была использована в рамках работы над проектом СМАДТ. Ю.В. Сидоров в своей диссертационной работе ставит под сомнения выводы Хетсо, аргументируя это недостаточным объемом исследуемых статей и результатами проверки текстов других потенциальных претендентов на предмет принадлежности их Достоевскому. Достоевского как такового. В диссертационной работе АЛО. Комиссарова описанные критерии использовались при разработке методики дифференциации авторов текстов с помощью анализа лексических навыков и методики классификации авторов текстов по уровню языковой культуры на основе лексического состава текстов. К одномерному статистическому анализу относится тест Т1т1е1ЕГгоп , для оценки словарного запаса Шекспира и атрибуции ему спорных произведений, и позже применявшийся в работе 9 и др. Е1Глг. А. количество слов, встретившихся х раз в корпусе для обучения, индекс соотношения между новыми и уже встречавшимися в корпусе словами. Наиболее мощным считается двусторонний критерий Фишера , относящийся к классу точных. Данный критерий применяют обычно в случае, когда выборки разрежены, имеют малый объем или не сбалансированы, и применение других критериев невозможно в силу низкой точности на подобных данных. Для определения, написаны ли два текста одним и тем же автором, выбирается некоторый признак текста и проверяется нулевая гипотеза о равенстве вероятностей появления признака в исследуемых фрагментах против ее альтернативы. Ро ЕКхи,п,п2Ьт. П, п2 С Сх С гипергеометрическое распределение.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.222, запросов: 244