Диссертация на тему "Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных", скачать бесплатно автореферат по специальности 05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям)

ВВЕДЕНИЕ
ОГЛАВЛЕНИЕ

1 ОБЩЕЕ ОПИСАНИЕ ПРОБЛЕМЫ
2 АНАЛИЗ ЛИТЕРАТУРЫ
2 Л Предобработка изображения
2.2 Растровый классификатор
2.3 Признаковые классификаторы
2.4 Структурные классификаторы
2.5 Комбинирование классификаторов
2.6 Выводы
3 МЕТОДЫ РЕШЕНИЯ ПОСТАВЛЕННОЙ ЗАДАЧИ
3.1 Содержательная постановка задачи
3.2 Структура системы распознавания
3.3 Векторное изображение
3.4 Признаковый классификатор
3.5 Растровый классификатор
3.6 Базы изображений
3.7 Описание структурных элементов
3.8 Выделение структурных элементов
3.9 Сопоставление структурного эталона с изображением
3.10 Структурный .дифференциальный классификатор
3.11 Методика разработки структурных описаний
4 ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
4.1 Результаты испытаний признакового классификатора
4.2 Результаты испытаний растрового классификатора
4.3 Результаты испытаний полной процедуры распознавания
4.4 Сравнение результатов с аналогичными системами
4.5 Анализ результатов

5 ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ

5.1 Обзор реализованных программных систем
5.2 Госналогслужба Российской Федерации.
5.3 Пенсионный Фонд России
5.4 Правительство Москвы
5.5 Центр Тестирования (Министерство Образования РФ)
5.6 Национальная регистрационная компания
5.7 Национальная Служба Новостей (НСН)

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Введение
С повсеместным распространением технологий компьютерной обработки информации перед создателями автоматизированных систем возникла новая крупномасштабная задача - ввод огромных объемов бумажных документов в компьютер. Широко известная концепция «безбумажного предприятия », конечно, крайне привлекательна, но реализовать ее на сто процентов даже в рамках одного предприятия практически невозможно - часть информации всегда останется в бумажном виде, и для этого есть весьма серьезные причины:
1. Предприятие не существует изолированно. Оно обязано взаимодействовать со своими подрядчиками, партнерами, клиентами, государством и т. д. поэтому использование безбумажных технологий возможно только в том случае, если
а) все участники обмена документами будут использовать безбумажные технологии,
б) будут созданы общепринятые стандарты, касающиеся способов и форматов передачи информации,
в) будет создана адекватная инфраструктура и выработана соответствующая деловая культура и традиция.
2. На сегодняшний день в правовом регулировании деятельности предприятий во многих странах признаются только бумажные документы, что неизбежно увеличивает их поток.

3. Даже при высоком уровне автоматизации документооборота остается задача ввода в компьютер ранее созданных бумажных документов. Архивы размером в десятки миллионов страниц не являются редкостью для средних и крупных предприятий. Информация, хранящаяся в этих архивах, часто необходима для анализа и прогнозирования будущей деятельности. В последнее время стали активно внедряться технологии многомерного анализа и так называемой «информационной проходки» (с1а1а-тттд), позволяющие глубоко исследовать скрытые зависимости путем анализа огромных массивов данных [1].
4. В учреждениях, работающих с населением, бумага пока остается единственным общедоступным средством передачи информации, поскольку далеко не у всех учреждений, предприятий, организаций (и уж тем более у физических лиц) есть персональные компьютеры и соответствующие средства связи.
5. Особенности менталитета руководства и многолетние деловые традиции часто оказываются серьезным препятствием на пути к полному переходу на безбумажные технологии. Типична и такая ситуация, когда документ изначально подготавливается с помощью компьютера, а затем распечатывается и передается дальше уже в бумажном виде.
Типы вводимых документов можно разделить на два широких класса -машинопечатные документы и рукописные документы. Особой актуальностью обладает задача ввода рукописных документов, так как она решена в значительно меньшей степени, чем задача ввода машинопечатных документов. Основными практическими задачами, требующими ввода рукописных документов, являются:
1. Распознавание форм. Предприятия и организации, взаимодействующие с большим числом физических лиц, используют заполняемые от руки формы и анкеты. Ввод подобных документов вручную требует больших трудозатрат и занимает много времени. Типичными примерами использования форм являются перепись населения, заполнение ежегодных налоговых деклараций и пенсионных форм, статистические отчеты предприятий, экзаменационные листы, анкетирование населения центрами изучения общественного мнения, голосование с помощью бумажных бюллетеней, маркетинговые опросы и т. д.
2. Распознавание рукописных адресов на почтовых конвертах. Почтовые системы практически всех стран мира до сих пор используют ручную сортировку

первый взгляд не применим к задаче распознавания символов, т.к. число классов в реальных задачах может достигать 100 и более. Тем не менее можно создать гибридную систему, которая будет объединять обычный классификатор на полное число классов и большое количество парных классификаторов, призванных различать часто путающиеся пары символов. Практическая реализация этой идеи применительно к распознаванию рукописных символов требует решения следующих задач:
а) разработать язык описания парных классификаторов, который позволяет программировать индивидуальные признаки для каждой пары путающихся символов;
б) разработать и реализовать программную систему, позволяющую создавать значительное количество (>1000) специализированных парных классификаторов за приемлемое время;
в) разработать и реализовать процедуру комбинирования классификаторов, которая способна объединить несколько полных классификаторов и очень большое количество парных классификаторов.
3.2 Структура системы распознавания
Входные и выходные данные системы распознавания
Входными данными для системы распознавания одиночного символа является изображение изолированного символа в растровом виде. Выходные данные модуля распознавания представляют собой совокупность двух компонентов:
1. Упорядоченного по вероятности списка гипотез о классе, к которому принадлежит входное изображение, с указанием относительной достоверности каждой из них.
2. Прогноза степени достоверности результата распознавания в целом, т. е. оценку абсолютной вероятности того, что входное изображение относится к первому в списке классу, а не является, например, "случайным мусором".
Следует отметить, что требования к выходным данным классификатора отличаются от тех, которые выдвигались в первых системах распознавания [72]. Изначально от классификатора требовалось лишь определить наиболее вероятного кандидата, т. е. список состоял всего из одной позиции. При этом никакого ранжирования результатов распознавания по доверительной вероятности не производилось. Такая постановка задачи годится только для применявшейся ранее линейной схемы

Название работы	Автор	Дата защиты
Модели и алгоритмы административного управления корпоративной распределенной информационно-вычислительной средой АСУ	Мишин, Денис Вячеславович	2013
Автоматизация технологического процесса обработки семян хлопчатника для производства растительного масла	Хуайер Абдулла Фарадж Хуайер	2017
Методы, модели и алгоритмы управления процессами в производственных системах	Мухин, Кирилл Олегович	2013

Электронная библиотека диссертаций

Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных

Рекомендуемые диссертации данного раздела