+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Автоматическая идентификация и распознавание структурированных документов

Автоматическая идентификация и распознавание структурированных документов
  • Автор:

    Постников, Василий Валерьевич

  • Шифр специальности:

    05.13.01

  • Научная степень:

    Кандидатская

  • Год защиты:

    2001

  • Место защиты:

    Москва

  • Количество страниц:

    126 с. : ил

  • Стоимость:

    700 р.

    250 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"Как показывают результаты работы, приведенная техника может использоваться для идентификации форм с фиксированной геометрией или имеющих небольшие отклонения в своих пропорциях в случае когда набор шаблонов достаточно велик, и методы линейного выбора наилучшего шаблона неэффективны. Техника хэширования могла бы быть распространена и на формы нетабличного вида но, по прежнему, только с линейным характером искажений при условии изменения способа выбора ключевых точек, а также существовании альтернативного устойчивого варианта нормализации координат при отсу гствии явного внешнего обрамления это может быть определенной проблемой. Методы описания и идентификации нежестко определенных форм документов. Приведенные в предыдущих разделах методы существенно опираются на наличие в документе линий разграфки и инвариантность структуры сочленения линий. Поля документа предполагаются четко ограниченными разграфкой для форм табличного вида предполагается ограниченность прямоугольника поля с четырех сторон, в других случаях авторы допускают дизайн полей, выделяющих поля заполнения линией снизу. На практике, такие жесткие ограничения существенно сужают класс обрабатываемых документов, в основном за счет того, что в них игнорируется информация, содержащаяся в заголовках полей статических текстах и других типах элементов. В работе СвМ демонстрируется система МогтуБ, ориентированная на обработку форм с нежестко фиксированной геометрией. В системе выделяются линии разграфки, логотипы, заголовки полей и значения полей. Перечисленные типы объектов представлены узлами размеченных графов, дуги которых соответствуют относительным положениям позициям связанных между собой объектов например, заголовка ноля и его значения. Как показывают результаты работы, приведенная техника может использоваться для идентификации форм с фиксированной геометрией или имеющих небольшие отклонения в своих пропорциях в случае когда набор шаблонов достаточно велик, и методы линейного выбора наилучшего шаблона неэффективны. Техника хэширования могла бы быть распространена и на формы нетабличного вида но, по прежнему, только с линейным характером искажений при условии изменения способа выбора ключевых точек, а также существовании альтернативного устойчивого варианта нормализации координат при отсу гствии явного внешнего обрамления это может быть определенной проблемой. Методы описания и идентификации нежестко определенных форм документов. Приведенные в предыдущих разделах методы существенно опираются на наличие в документе линий разграфки и инвариантность структуры сочленения линий. Поля документа предполагаются четко ограниченными разграфкой для форм табличного вида предполагается ограниченность прямоугольника поля с четырех сторон, в других случаях авторы допускают дизайн полей, выделяющих поля заполнения линией снизу. На практике, такие жесткие ограничения существенно сужают класс обрабатываемых документов, в основном за счет того, что в них игнорируется информация, содержащаяся в заголовках полей статических текстах и других типах элементов. В работе СвМ демонстрируется система МогтуБ, ориентированная на обработку форм с нежестко фиксированной геометрией. В системе выделяются линии разграфки, логотипы, заголовки полей и значения полей. Перечисленные типы объектов представлены узлами размеченных графов, дуги которых соответствуют относительным положениям позициям связанных между собой объектов например, заголовка ноля и его значения.


ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ. Обзор существующих методов. Методы обработки изображения и выделения графических примитивов. Замечания. МОДЕЛИРОВАНИЕ СОДЕРЖАНИЯ И СТРУКТУРЫ ДОКУМЕНТА. Структурированное множество. Структурированный информационный объект. Логическая структура и физическая структура информационного объекта. Жесткое и нежесткое разбиение на страницы. Формы с жестко и нежестко фиксированным расположением элементов. Модель блочной декомпозиции. Модель табличной декомпозиции. Декомпозиция угловых блоков. Декомпозиция блоков, построенных по принципу укладка и перетекание . Декомпозиция документа, разделенного на страницы и колонки. Требования к полноте перечисления элементов. Шаблоны логически однотипных форм. МЕТОДЫ ИДЕНТИФИКАЦИИ СТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ. Неоднозначность отображения. Расчет параметров деформации по подмножеству отображенных элементов. Бинаризация графического образа. Фрагментация графического образа страницы. Основные задачи контекстной постобработки. Структура результатов распознавания.


Как показывают результаты работы, приведенная техника может использоваться для идентификации форм с фиксированной геометрией или имеющих небольшие отклонения в своих пропорциях в случае когда набор шаблонов достаточно велик, и методы линейного выбора наилучшего шаблона неэффективны. Техника хэширования могла бы быть распространена и на формы нетабличного вида но, по прежнему, только с линейным характером искажений при условии изменения способа выбора ключевых точек, а также существовании альтернативного устойчивого варианта нормализации координат при отсу гствии явного внешнего обрамления это может быть определенной проблемой. Методы описания и идентификации нежестко определенных форм документов. Приведенные в предыдущих разделах методы существенно опираются на наличие в документе линий разграфки и инвариантность структуры сочленения линий. Поля документа предполагаются четко ограниченными разграфкой для форм табличного вида предполагается ограниченность прямоугольника поля с четырех сторон, в других случаях авторы допускают дизайн полей, выделяющих поля заполнения линией снизу. На практике, такие жесткие ограничения существенно сужают класс обрабатываемых документов, в основном за счет того, что в них игнорируется информация, содержащаяся в заголовках полей статических текстах и других типах элементов. В работе СвМ демонстрируется система МогтуБ, ориентированная на обработку форм с нежестко фиксированной геометрией. В системе выделяются линии разграфки, логотипы, заголовки полей и значения полей. Перечисленные типы объектов представлены узлами размеченных графов, дуги которых соответствуют относительным положениям позициям связанных между собой объектов например, заголовка ноля и его значения.

Рекомендуемые диссертации данного раздела

Время генерации: 0.596, запросов: 966