Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа

Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа

Автор: Полицына, Екатерина Валерьевна

Год защиты: 2012

Место защиты: Москва

Количество страниц: 137 с. ил.

Артикул: 5502777

Автор: Полицына, Екатерина Валерьевна

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Стоимость: 250 руб.

Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа  Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа 

Содержание
Введение
1. Исследование современного состояния и методов автоматизированного анализа текста
1.1. Понятие текста и необходимость автоматизации его анализа
1.2. Исследование развития автоматического и автоматизированного анализа текста.
1.2.1. Исследование задачи автоматизации анализа текста
1.2.2. Обзор сфер применен ия автомат тированного анализа текста
1.2.3. Базовые методы, используемые при автоматтированном анализе текста.
1.2.4. Основные этапы автоматизированного анализа текста
1.3. Классификация и обзор систем и инструментов анализа текста
1.4. Основные проблемы автоматизированного анализа текста
1.5. Выводы
2. Создание открытой системы автоматизированной обработки текста
2.1. Определение требований к системе
2.2. Концептуальная модель открытой системы автоматизированной обработки текста
2.3. Структура открытой системы автоматизированной обработки текста
2.3.1. Система базовой обработки.
2.3.2. Система хранения
2.3.3. Система анализа результатов.
2.3.4. Аналитическая система накопления поступающей информации.
2.3.5. Система хранения
2.3.6. Система поддержки пользователя
2.4. Выводы
3. Разработка инструментальных средств автоматизированного анализа текста
3.1. Создание инструментальных средств аналитической обработки текста
3.2. Разработка языка сценариев
3.2.1. Общая характеристика языка сценариев
3.2.2. Операции над структурами и их формальное описание.
3.2.3. Операции управления.
3.2.4. Статусы операций
3.2.5. Практическое применение операций
3.3. Прогнозирование времени обработки текста
3.3.1. Экспериментальные оценки времени обработки
3.3.2. Определение вида кривой регрессии.
3.3.3. Методика прогнозирования времени обработки
3.3.4. Примеры оценки времени обработки текстов.
3.4. Выводы
4. Экспериментальная проверка разработанных инструментальных средств анализа текста.
4.1. Возможность реализации множества подходов к анализу текста
4.2. Реализация подхода множество текстов один сценарий составление словарей писателей
4.2.1. Исходные данные
4.2.2. Алгоритм и результаты работы сценария
4.3. Реализация подхода один текст множество сценариев определение используемости одного текста в другом.
4.3.1. Исходные данные
4.3.2. Алгоритл1 работы сценария
4.3.3. Полученные результаты.
4.4. Реализация подхода множество текстов множество сценариев
исследование словарного запаса писателей.
4.5. Применение адаптивнодинамической модели анализа текста на примере автоматизированного классифицирования текстов
4.5.1. Исходные данные.
4.5.2. Алгоритм работы сценария
4.5.3. Полученные результаты.
4.6. Создание библиотек шаблонов
4.7. Результаты реализации предложенных моделей и перспективы развития.
4.8. Выводы.
Заключение .
Список литературы


К настоящему времени обострилась проблема обработки больших объемов данных [, ]: с одной стороны необходимо находить тексты из возрастающего количества доступных источников, с другой стороны увеличилось количество задач, в которых требуется производить анализ имеющейся или полученной информации. Исследования в области искусственного интеллекта, голосовых технологий, в области создание экспертных систем, баз знаний также связаны с проблемами «понимания» и анализа текста [9]. Сочетание множества гаких факторов делает актуальным и необходимым ускорение исследований как в теории, так и в использовании и развитии автоматизированных систем анализа текста, в создании принципиально новых систем. В общем смысле задачей автоматизированного анализа текста является извлечение системой из текста необходимой информации. Определим, что понимается под автоматизированным анализом текста. При этом следует различать автоматический и автоматизированный анализ текста. При автоматическом анализе человек не оказывает влияния на выполнение алгоритма, но сложность задачи такова, что решить ее в полностью автоматическом режиме, написав универсальный алгоритм, на данном этапе в общем случае невозможно []. К настоящему времени известны системы, которые могут создаваться рефераты, производить индексацию текстов, определять статистические характеристики текста. Но в силу неудовлетворительности качества полученных результатов все же необходимо вмешательство человека. Причина лежит в несовершенстве выбранных методов и алгоритмов. В связи с этим актуальным является решение проблемы воздействия на алгоритмы анализа. Таким образом, в настоящее время накопленный опыт по обработке и анализу текста и сложность самого объекта анализа не создали условий для возможности полной автоматизации анализа текста. Поэтому в диссертационной работе делается акцент на автоматизированный анализ (АА) текста на естественном языке с возможностью обобщения и объединения как средств и методов обработки, так и получаемых результатов, без чего, по-видимому, невозможно продвижение в такой весьма сложной области знаний. В настоящее время имеется много описанных теоретических приемов и методов обработки текстов, особенно до синтаксического уровня, но их реализация, как правило, скрыта и недоступна для пользователей таких систем. Часто встречающиеся утверждения типа: «конечно, естественные тексты слабо поддаются формализации, и поэтому во многих сложившихся и действующих подходах преобладают эмпирические решения» [] - вряд ли могут служить оправданием для пользователей подобных систем. Смысловая же сторона анализа текста является областью, где теоретические и практические результаты видны в меньшей степени. И даже термин «семантический анализ» понимается создателями систем автоматического понимания текста (АПТ) неоднозначно. Неутешительным является высказывание следующего характера: «а такими понятиями, как представление знаний, теоретическая лингвистика вовсе не занималась, их определение, а также способы построения обычно отдаются на откуп когнитологам1 и специалистам в определенных узких областях знаний. Между тем в такой важной и актуальной сфере, как автоматическое извлечение знаний из массивов естественных текстов, трудно ждать успеха без серьезной лингвистической основы. Теория или модель должны учитывать все реалии процесса АПТ - от особенностей поступающего в систему массива текстов до представления результата понимания, выдаваемого пользователю» []. Будем предполагать, что задачей системы автоматизированного анализа текста является та или иная степень «понимания» текста. Именно в таком ключе в работе [] приводится определение термина «понимание» через результат, который мы можем или стремимся получить от системы анализа. Результат должен быть другим объектом, отличным от входного текста. Машина поняла текст, если она может отвечать на вопросы к этому тексту. Машина поняла текст (например, описывающий какую-то картинку или схему), если она может по описанию нарисовать эту картинку, либо схему. Машина поняла текст, если она может описанные в тексте сведения (например, о занятости населения нашего города) изобразить в другой форме, например в форме таблицы или другого текста. Когнитолог - специалист по анализу и представлению знаний.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.297, запросов: 244