Адаптивные алгоритмы распознавания текстов

Адаптивные алгоритмы распознавания текстов

Автор: Титов, Юрий Васильевич

Количество страниц: 115 с. ил.

Артикул: 3406887

Автор: Титов, Юрий Васильевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2007

Место защиты: Москва

Стоимость: 250 руб.

Адаптивные алгоритмы распознавания текстов  Адаптивные алгоритмы распознавания текстов 

Содержание
ВВЕДЕНИЕ.
ГЛЛВЛ 1 ОБЗОР ПРИЗНАКОВЫХ И АДАПТИВНЫХ АЛГОРИТМОВ РАСПОЗНАВАНИЯ
ТЕКСТОВ.
1.1 ВСТУПЛЕНИЕ.
1.2 Метод характерных фрагментов.Б
1.2.1 Описание двухградационных изображений.
1.2.2 Алгоритмы выделения характерных фрагментов.
1.2.3 Векторы, задающих форму характерных фрагментов.
1.2.4 Векторы, задающие местоположение характерных фрагментов
1.3 Адаптивное распознавание
1.3.1 Общая схема адаптивного распознавания
1.3.2 Создание эталонов
1.3.3 Дораспознавание
1.4 Штрафные функции
1.5 Выводы
ГЛАВА 2 МЕТОДЫ И ПРОБЛЕМЫ АДАПТИВНОГО РАСПОЗНАВАНИЯ
ОТСКАНИРОВАННОЕ О ТЕКСТА .
2.1 Основные задачи адагп ивного распознавания
2.1.1 Построение идеального образа.
2.1.2 Сравнение символа с эталонам.
2.2 Искажение символов при сканировании.
2.2.1 Определения
2.2.2 Представление символа
2.2.3 Влияние аппаратной функции.
2.2.4 Размеры прообраза.5
2.2.5 Тонкие линии.
2.2.6 Наклонные линии на сетке.
2.2.7 Распределение полутонов. Количественные характеристики.
2.3 ВЫВОДЫ
Г ЛАВА 3 ФУНКЦИИ СРАВНЕНИЯ С ИДЕАЛЬНЫМ ОБРАЗОМ В АДАПТИВНОМ
РАСПОЗНАВАНИИ . .
3.1 0СТР0ЕНИЕ ИДЕАЛЬНЫХ ОБРАЗОВ.
3.2 Уплотненные взвешенные растры.
3.2.1 Простейший случай укладки взвешенного растра.
3.2.2 Мера плотности укладки взвешенных растров
3.2.3 Укладка сложных растров
3.3 От личие символов от идеальных образов
3.4 Стандартные функции сравнения основные недостатки.
3.5 АЛГОРИТМ ПОСТРОЕНИЯ СПЕЦИАЛЬНОЙ ФУНКЦИИ СРАВНЕНИЯ.
3.6 Выводы
ГЛАВА 4 РЕАЛИЗАЦИЯ АДАПТИВНОГО АЛГОРИТМА
4.1 Подбор параметров при обучении
4.2 Инструментарий исследователя
4.2.1 Компонента кластеризации.
4.2.2 Компонента просмотра и редактирования кластеров
4.3 Полная схема алгоритма распознавания
4.4 Выводы
ВЫВОДЫ И ЗАКЛЮЧЕНИЕ .11И
ПРИЛОЖЕНИЯ
5.1 Распределение полутонюв в сложных объектах.
5.2 Сравнение взвешенных растров первого и второго прохода.
СПИСОК ИЛЛЮСТРАЦИЙ.
СПИСОК ТАБЛИЦ . .
ЛИТЕРАТУРА


Обоснована необходимость поиска характерных фрагментов ввиду невозможности различить схожие символы с помощью стандартных функций сравнения. Описан разработанный алгоритм построения функции сравнения с идеальными образами, учитывающей существенные области в начертаниях похожих символов. В четвертой главе описаны особенности реализации алгоритма сравнения символов с идеальными образами и его внедрение в программу распознавания текста OCR Cognitive Cuneiform®. Описаны использованные про-граммные компоненты, созданные специально для исследования алгоритмов распознавания. Протестировано обучение при подборе параметров в функции близости, предложенной в третьей главе. По теме диссертации опубликовано 4 работы, одна из них в соавторстве; зарегистрирован патент на полезную модель. В настоящее время существует большое количество алгоритмов хорошо распознающих четко напечатанные тексты, задача же распознавания в более сложных случаях далека от решения. Так в случае наличия в тексте визуально схожих символов, отличие которых сосредоточено лишь в относительно небольших элементах (например, символы Ш и Щ), алгоритмы распознавания текста часто ошибаются. В то же время любой носитель языка легко различит распознаваемые символы друг от друга. Причина в том, что человек обращает внимание именно на те области, в которых эти символы отличаются. Возникает необходимость обучения алгоритмов находить такие области и сравнивать символы с учетом найденных характерных фрагментов. В последние десятилетия такие алгоритмы распознавания эволюционировали, совершенствовались, недостатков становилось все меньше, однако достичь 0% точности распознавания даже печатных текстов до настоящего времени пока не удается. Двухградационное (черно-белое) изображение можно описывается взаимным расположением его локальных геометрических особенностей [8, ]. Локальными геометрическими особенностями считаются как особые точки на контурных линиях — изломы, пересечения, концы, так и особые точки на границах черных или белых пятен. Процесс анализа предъявленного множества изображений начинается с выделения на них так называемых характерных фрагментов — участков изображений, содержащих локальные геометрические особенности. Рассматриваемый ниже метод выделения характерных фрагментов не требует явного списочного задания тех особенностей, которые должны быть обнаружены. После того как на всех изображениях все характерные фрагменты выделены, машина приступает к формированию словаря форм характерных фрагментов. Для этого каждому фрагменту ставится в соответствие вектор, компоненты которого определяют его форму. В частном случае это может быть просто набор значений зачерненности точек растра, входящих во фрагмент. Затем множество векторов, описывающих форму характерных фрагментов, подвергается обработке с помощью алгоритмов автоматической классификации (описанных например в [8]). В соответствии с идеей метода автоматической классификации накопленное множество характерных фрагментов оказывается разделенным на классы «похожих» фрагментов. Каждый класс принимается за отдельное слово. Словарь форм есть совокупность таких слов. Для произвольного нового фрагмента всегда можно указать, к какому из полученных классов он ближе всего по форме. Процедура отнесения фрагмента к одному из уже выделенных классов может быть выполнена одним из алгоритмов распознавания образов, описанных в [8], с использованием в качестве обучающей выборки фрагментов, участвующих в первоначальной классификации. Для каждого из выделенных фрагментов строится набор характеристик его места на изображении. Эти характеристики необходимы для описания взаимного расположения геометрических особенностей. В качестве таких характеристик используются параметры, задающие диаграмму направленности расположения всех выделенных фрагментов относительно данного фрагмента. Затем построенные таким образом наборы параметров разделяются на группы «близких» с помощью тех же алгоритмов автоматической классификации. Полученные классы определяют словарь мест.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.241, запросов: 244