Методика распознавания древнерусских скорописных текстов

Методика распознавания древнерусских скорописных текстов

Автор: Зеленцов, Иван Анатольевич

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Москва

Количество страниц: 207 с. ил.

Артикул: 5407087

Автор: Зеленцов, Иван Анатольевич

Стоимость: 250 руб.

Методика распознавания древнерусских скорописных текстов  Методика распознавания древнерусских скорописных текстов 

СОДЕРЖАНИЕ
СПИСОК ТЕРМИНОВ И СОКРАЩЕНИЙ
ВВЕДЕНИЕ.
1 Задача распознавания древнерусской скорописи
1.1. Описание предметной области
1.1.1 Древнерусская скоропись XVII в.
1.1.2 Распознавание скорописных текстов
1.2 Постановка задачи исследования.
1.3 Методы распознавания текста
1.3.1 Задача распознавания.
1.3.2 Методы, использующие Евклидово пространство
1.3.3 Признаковые методы.
1.3.4 Структурные методы.
1.3.5 Методы трассировки изображений.
1.4 Обзор существующих средств распознавания.
1.5 Общие принципы предлагаемой методики распознавания
1.5.1 Особенности и ограничения
1.5.2 Подход к распознаванию.
1.5.3 Экспертный подход
1.6 Выводы.
2 Методика распознавания
2.1 Система экспертного распознавания
2.1.1 Структура
2.1.2 Схема функционирования
2.2 Структурное описание объектов распознавания.
2.2.1 Описание структуры буквы
2.2.2 Описание структуры слова
2.3 База знаний.
2.3.1 Фреймовое представление знаний
2.3.2 Структура базы знаний.
2.3.3 Общая схема построения фреймовых моделей
2.3.4 Пространственные отношения
2.3.5 Структурное описание букв.
2.3.6 Количественные характеристики базы знаний букв
2.3.7 Структурное описание слов.
2.3.8 Количественные характеристики базы знаний слов
2.4 Обучение системы.
2.4.1 Получение знаний о структуре букв.
2.4.2 Получение знаний о структуре слов.
2.5 Выводы.
Алгоритмы распознавания.
3.1 Трассировка изображений
3.1.1 Постановка задачи.
3.1.2 Требования к модулю трассировки.
3.1.3 Использованный метод трассировки
3.1.4 Поиск линий.
3.2 Абстрактный метод распознавания
3.2.1 Виртуальный фрейм.
3.2.2 Гипотезы.
3.2.3 Характеристики гипотез.
3.2.4 Распознавание абстрактных образов
3.3 Распознавание букв.
3.3.1 Весовые функции.
3.3.2 Правила согласования элементов букв.
3.3.3 Алгоритм распознавания букв.
3.4 Распознавание слов.
3.4.1 Весовые функции.
3.4.2 Правила согласования элементов слов.
3.4.3 Алгоритм распознавания слов.
3.5 Выводы.
4 Реализация и исследование компонентов системы распознавания.
4.1 Аспекты программной реализации.
4.1.1 Реализация базы знаний
4.1.2 Реализация модулей распознавания
4.1.3 Модуль обучения.
4.1.4 Модуль трассировки
4.2 Исследование эффективности распознавания букв
4.2.1 Методика исследования.
4.2.2 Анализ результатов
4.3 Исследование эффективности распознавания слов
4.3.1 Методика исследования.
4.3.2 Анализ результатов
4.4 Исследование корректности распознавания
4.5 Выводы.
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ


Процесс распознавания заключается в анализе графической информации документа с целью выделения фрагментов изображения, соответствующих отдельным буквам, и определения соответствующих им числовых кодов. Таким образом, задачей распознавания является преобразование растрового изображения текста в последовательность соответствующих числовых кодов, т. Преобразование осуществляется компьютерными программами распознавателями. Сложность решения задачи компьютерного распознавания находится в сильной зависимости от особенностей графического представления текста. В текстах, полученных типографским способом, буквы располагаются в ровных строках, имеют одинаковое начертание в пределах всего документа и, как правило, имеют достаточно четко различимые промежутки между собой. При решении задачи распознавания эта информация позволяет использовать допущения, снижающие сложность разрабатываемых алгоритмов и методов. В рукописных текстах, и особенно в скорописных, таких ограничений в общем случае нет (рис. Здесь присутствует множество особенностей, связанных с процессом синтеза текста. Поэтому в скорописных текстах велика вариативность начертания букв, и они часто связываются соединительными линиями, строки не располагаются на ровных горизонталях, могут встречаться помарки и кляксы. Кроме того, процесс получения электронных изображений рукописей обычно включает в себя несколько этапов копирования (фотографирования и сканирования), каждый из которых вносит свою долю помех и дефектов в выходное изображение. На основе проведённого анализа можно сделать заключение, что большинство допущений относительно распознаваемого текста, принимаемых при распознавании машинной печати, не применимы к скорописным документам. Так, нельзя полагать, что буквы имеют в большой степени одинаковое начертание. Более того, одна и та же буква может иметь в разных точках текста различные декоративные штрихи, не входящие в основной набор формирующих букву элементов. Нельзя рассчитывать на возможность выделения отдельных букв в изображении с помощью поиска обособленных скоплений чёрных точек. Кроме того, расположение соседних букв может отличаться по вертикали, поэтому можно лишь приблизительно обозначать место поиска очередной буквы. Ещё одной особенностью древних рукописей являются используемые в них язык и способы написания символов алфавита, которые отличаются от современных. Следовательно, для создания программы распознавания не достаточно знаний человека, владеющего современным русским языком и навыками письма, а необходимы знания эксперта. В программу требуется заложить сведения о распознаваемом алфавите, способах написания различных символов, особенностях оформления древних документов. В процессе распознавания возможны ситуации, когда программа не в состоянии произвести распознавание очередного символа. Это может быть связано с упомянутыми выше дефектами изображений, спецификой скорописи , или обнаружением фрагментов, не поддающихся классификации с помощью заложенных в программу правил. Он может разрешить сложившуюся ситуацию прямым указанием верного ответа, а также дать программе команду запомнить эту ситуацию и её разрешение как новое правило. Таким образом, для решения задачи автоматизации получения электронных текстов рукописей складывается необходимость в создании экспертной системы распознавания. Результатом применения разрабатываемой методики распознавания является компьютерное программное средство, назначением которого является автоматизация процесса перевода древних документов в вид электронного текста - система экспертного распознавания. С его помощью специалист, создающий электронную копию документа, сможет исключить из своей работы этап ручного ввода текста, а также по большей части избежать чтения исходного документа. Таким образом, основной целью и практической ценностью применения компьютерной системы распознавания является сокращение времени и трудозатрат, необходимых для получения электронной текстовой копии рукописи. Критерий трудоёмкости. Критерий эффективности. Критерий корректности.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.204, запросов: 244