Разработка модели и метода структурирования текста с целью его идентификации

Разработка модели и метода структурирования текста с целью его идентификации

Автор: Панкратова, Анна Зурабовна

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2002

Место защиты: Нижний Новгород

Количество страниц: 204 с. ил

Артикул: 2315343

Автор: Панкратова, Анна Зурабовна

Стоимость: 250 руб.

Разработка модели и метода структурирования текста с целью его идентификации  Разработка модели и метода структурирования текста с целью его идентификации 

Введение.
Глава Т. Автоматизация анализа структуры текста обзор современного состояния .
1.1. Текст и перспективы его автоматического анализа
1.2. Лексика как структурное образование
1.3. Синтаксические модели предложения
1.4.Анализ структурной организации текста
1.5. Постановка задачи.
Выводы.
Глава II. Разработка модели и метода
структурирования текста.
2.1. Системность языка и текста4
2.2.Ранговые распределения б тексте
и системах различной природы
2.3. Модель структуры текста
Выводы.7
Глава III.Идентификация текстов по информационному портрету
3.1.Понятие стиля литературного произведения
и возможности его изучения.7
3.2. Метод изучения стиля, основанный на применении автором сочетаний грамматических форм.
3.3. Информационный портрет текста и возможность
его атрибуции.
3.4. Построение информационного портрета
3.5. Сравнение информационных портретов и
идентификация текстов
Выводы.
Заключение.
Библиографический список.
Работы автора
Приложения
Приложение 1. Модифицированный ранговый закон распределения
букв русского и английского алфавита.
Приложение 2. Модифицированный ранговый закон распределения
слов из словаря Э.А. Штейнфельдт
Приложение 3. Сравнительный анализ текстов Пушкина,
А.П. Чехова, А. Куприна .
Приложение 4. Сравнительный анализ текстов художественного,
научного и публицистического стиля
Приложение 5. Идентификация текстов.
Приложение 6. Алгоритм статистической
обработки текста
Приложение 7. Акт о внедрении результатов кандидатской диссертации в учебный процесс НГЛУ
Введение.
Диссертация посвящена разработке модели структурирования текста, знание которой необходимо для построения эффективных алгоритмов его автоматической обработки.
Классические методы статистической обработки текста с целью выяснения его структуры, которые сводятся чаще всего к оценке рангового закона распределения закона Ципфа, подверглись в последние годы существенной критике, поскольку, в сущности, ОКИ носят эмпирический характер.
Согласно новой парадигме, которая сложилась в последние годы, текст предполагается рассматривать как некоторую целостность, но в литературе отсутствуют какиелибо результаты в этом направлении, поэтому данная работа является актуальной.
В данной работе модель текста представлена в виде системы, количественный состав компонентов языковых единиц которой вычисляется априорно на основании закона золотого деления.
Результаты расчета с высокой точностью совпали с результатами соответствующей обработки текстов.
Разработана новая методика идентификации текстов, основанная на описании структурных связей между языковыми единицами посредством взедения взаимной информации.
Таким образом, разработанный автором новый метод идентификации текста может быть рекомендован как инструмент для его анализа как более эффективного, по сравнению с известными.
Актуальность


В заключении сформулированы основные научные и практические результаты диссертационной работы. Приложения содержат статистические данные по исследованию ранговых распределений в различных структурах и анализу инфор2лационных портретов, документы подтверждающие использование и внедрение результатов работы в учебном процессе. Глава 1. В настоящее время эффективное развитие систем управления, информационных и других систем в различных сферах науки и производства, определяется возможностью быстрой и качественной обработки информации. Поскольку основной формой хранения информации является текст, актуальными являются исследования по его автоматической обработке. Одной из основных задач науки, возникшей в начале 7 0х годов XX в. Существует множество определений текста. В большинстве из них в качестве основных признаков отмечаются целостность, связность, организованность по цели и смыслу, а также подчеркивается коммуникативная направленность текста. Например текст это последовательность осмысленных высказываний, передающих информацию, объединенных общей темой, обладающая свойствами связности и цельности , или сложное образование, которое одновременно включает в себя языковые, логические, речевые, мыслительные, стилистические, экспрессивные и другие компоненты . В зависимости от аспекта исследования текста и применяемых методов, перечисленные свойства текста могут получать различные интерпретации. При статистическом исследовании текста он может рассматриваться как совокупность неоднородных объектов, каждый из которых встречается с определенной частотой. С позиций системного подхода текст, являясь целостным образованием, принадлежит к классу внутренних систем, к которым можно применить процедуры членения и др. Как отмечает И. Р. Гальперин, в лингвистической литературе системность текста только нащупывается. В таком объекте как текст есть свои ограничения, которые поразному накладываются на разные типы текста. В текстах одних типов эти ограничения могут быть представлены в виде определенных более или менее строгих правил, в других типах они настолько размыты, что с трудом поддаются регламентации ,. Таким образом, текст является средоточием организованного, упорядоченного, запрограммированного и врывающегося случайного, незапрограммированного, возникающего з процессе его создания , с. Текст имеет двойственную природу он одновременно и детермикирозан и размыт. Двойственная природа текста определяет необходимость найти некоторые закономерности организации текста. Исходным положением в анализе текста является признание его некоторой сущностью, имеющей самодовлеющий характер, но подчиняющийся общим закономерностям построения речевого произведения в его завершенности. Как отмечает Г. В. Колшанский, для любого речевого акта остается в силе прежде всего всеобщий закон, на основе которого строится данное высказывание, а именно закон структурной организации этого высказывания . Таким образом, текст является некоторым завершенным сообщением, обладающим своим содержанием, организованным по некоторой модели одной из существующих в языке форм сообщений и характеризующееся своими признаками. Как и всякая модель, модель текста не охватывает все признаки текста как объекта исследования, она допускает возможные вариации этих признаков в каждой конкретной форме реализации. Поэтому, по замечанию И. Данная задача не может быть решена только с помощью лингвистических методов. Автоматизация обработки текста подчиняется нескольким задачам рис. Рис. Возможность решения этих задач обусловлена тем, что текст включает в себя определенный инвентарь языковых элементов, определенным образом сочетающихся в нем в соответствии с грамматикой языка. Текст одновременно реализует и формирует систему языка 2,3. Первый уровень поверхностная синтаксическая структура. Третий уровень семантическая структура. В семантических структурах также можно выделить поверхностный и глубинный уровни, в чемто похожие на соответствующие уровни в синтаксических структурах. Возникают межфразовые связи, позволяющие понять текст как единое целое.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.204, запросов: 244