Автоматическая идентификация и распознавание структурированных документов

Автоматическая идентификация и распознавание структурированных документов

Автор: Постников, Василий Валерьевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2001

Место защиты: Москва

Количество страниц: 126 с. ил

Артикул: 338486

Автор: Постников, Василий Валерьевич

Стоимость: 250 руб.

Автоматическая идентификация и распознавание структурированных документов  Автоматическая идентификация и распознавание структурированных документов 

ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ. Обзор существующих методов. Методы обработки изображения и выделения графических примитивов. Замечания. МОДЕЛИРОВАНИЕ СОДЕРЖАНИЯ И СТРУКТУРЫ ДОКУМЕНТА. Структурированное множество. Структурированный информационный объект. Логическая структура и физическая структура информационного объекта. Жесткое и нежесткое разбиение на страницы. Формы с жестко и нежестко фиксированным расположением элементов. Модель блочной декомпозиции. Модель табличной декомпозиции. Декомпозиция угловых блоков. Декомпозиция блоков, построенных по принципу укладка и перетекание . Декомпозиция документа, разделенного на страницы и колонки. Требования к полноте перечисления элементов. Шаблоны логически однотипных форм. МЕТОДЫ ИДЕНТИФИКАЦИИ СТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ. Неоднозначность отображения. Расчет параметров деформации по подмножеству отображенных элементов. Бинаризация графического образа. Фрагментация графического образа страницы. Основные задачи контекстной постобработки. Структура результатов распознавания.


Как показывают результаты работы, приведенная техника может использоваться для идентификации форм с фиксированной геометрией или имеющих небольшие отклонения в своих пропорциях в случае когда набор шаблонов достаточно велик, и методы линейного выбора наилучшего шаблона неэффективны. Техника хэширования могла бы быть распространена и на формы нетабличного вида но, по прежнему, только с линейным характером искажений при условии изменения способа выбора ключевых точек, а также существовании альтернативного устойчивого варианта нормализации координат при отсу гствии явного внешнего обрамления это может быть определенной проблемой. Методы описания и идентификации нежестко определенных форм документов. Приведенные в предыдущих разделах методы существенно опираются на наличие в документе линий разграфки и инвариантность структуры сочленения линий. Поля документа предполагаются четко ограниченными разграфкой для форм табличного вида предполагается ограниченность прямоугольника поля с четырех сторон, в других случаях авторы допускают дизайн полей, выделяющих поля заполнения линией снизу. На практике, такие жесткие ограничения существенно сужают класс обрабатываемых документов, в основном за счет того, что в них игнорируется информация, содержащаяся в заголовках полей статических текстах и других типах элементов. В работе СвМ демонстрируется система МогтуБ, ориентированная на обработку форм с нежестко фиксированной геометрией. В системе выделяются линии разграфки, логотипы, заголовки полей и значения полей. Перечисленные типы объектов представлены узлами размеченных графов, дуги которых соответствуют относительным положениям позициям связанных между собой объектов например, заголовка ноля и его значения.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.225, запросов: 244