+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Технология и система автоматической корректировки результатов при распознавании архивных документов

Технология и система автоматической корректировки результатов при распознавании архивных документов
  • Автор:

    Смирнов, Сергей Владимирович

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2015

  • Место защиты:

    Санкт-Петербург

  • Количество страниц:

    130 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"
Глава 1. Аналитический обзор предметной области и постановка задачи исследования 
1.2 Обзор и сравнительный анализ систем оптического распознавания



Оглавление
Введение

Глава 1. Аналитический обзор предметной области и постановка задачи исследования


1.1 Концептуальные основы разработки системы распознавания архивных документов с автоматической корректировкой результатов

1.2 Обзор и сравнительный анализ систем оптического распознавания

символов при обработке архивных документов

1.3 Классификация ошибок оптического распознавания символов

1.4 Методы корректировки ошибок правописания слов и оптического

распознавания символов

1.5 Выводы по первой главе


Глава 2. Автоматическая корректировка ошибок оптического распознавания на основе рейтинго-ранговой модели текста
2.1 Описание метода вычисления расстояния Левенштейна между
словами и алгоритма поиска схожих слов методом анаграмм
2.2 Общий алгоритм метода автоматической корректировки ошибок
распознавания на основе рейтинго-ранговой модели текста
2.3 Предварительная обработка результатов распознавания архивных
документов и подготовка структур данных для выявления ошибок и генерации набора корректировок
2.4 Генерация набора корректировок и правила их ранжирования и выбора наиболее подходящих для замены ошибочных слов
2.5 Выводы по второй главе
Глава 3. Технология и система автоматической корректировки результатов распознавания архивных документов

3.1 Технология распознавания архивных документов с корректировкой
результатов и ее интеграция в бизнес процесс обработки документов
электронного архива
3.2 Архитектура и компонентная модель системы распознавания архивных документов и корректировки результатов
3.3 Программный комплекс настройки процесса обработки архивных документов различных тематических областей
3.4 Программный комплекс пакетного распознавания изображений и корректировки результатов
3.5 Программный комплекс автономной обработки отдельного изображения
3.6 Выводы по третьей главе
Глава 4. Апробация технологии и системы автоматической корректировки
результатов при распознавании документов архивного фонда
4.1 Последовательность и условия проведения опытной эксплуатации разработанной технологии и системы
4.2 Критерии оценки качества
4.3 Оценка метода автоматической корректировки результатов распознавания на основе рейтинго-ранговой модели текста и результаты автоматической корректировки всего корпуса распознанных документов..
4.4 Выводы по четвертой главе
Заключение
Список литературы
Приложение А. Примеры графического интерфейса системы
Приложение Б. Свидетельства о государственной регистрации
Приложение В. Акты внедрения
Введение
Актуальность темы диссертации. В наше время сохранение исторического наследия является актуальной задачей во всем мире, в стратегии развития информационного общества Российской Федерации одним из основных направлений является сохранение культурного наследия России и обеспечение его доступности для граждан [37].
Повсеместно запускаются проекты по массовой оцифровке фондов библиотек, музеев, архивов. Отличительными чертами данных проектов являются большие объемы обрабатываемой информации, достигающие размеров от сотен тысяч до миллионов документов за год, высокая стоимость работ, отсутствие временного ресурса на проведение полноценного контроля качества человеком и, как следствие, потребность в автоматизации всего цикла работ.
После перевода документов на бумажных носителях в электронный вид требуется обеспечить возможность оперативного поиска и навигации. Эффективность поисковых инструментов во многом зависит от результатов, полученных на выходе применяемой системы оптического распознавания символов (OCR — optical character recognition).
Достоверность результатов оптического распознавания сильно зависит от качества исходного изображения, лексикона, используемого при написании текста, особенностей шрифтов, наличия сторонних объектов, шумов и многих других факторов. Высокая точность достигается в случае распознавания изображений, где текст размещен на монотонно ровном фоне с хорошей контрастностью; тезаурус, используемый при написании текста, соответствует встроенному словарю системы распознавания и не содержит редких слов и словоформ; начертание букв и слов позволяет однозначно произвести сопоставление с шаблоном.
Существующие коммерческие системы распознавания текста («Abbyy Finereader» [45], «Nuance OmniPage» [92] и др.), а также системы с открытыми исходными кодами («Cuneiform» [57], «Tesseract» [116] и др.) достигают высокой точности результатов при обработке современных качественных печатных

Другая система корректировки ошибок распознавания AfterScan [46] осуществляет проверку орфографии, анализ текста и обеспечивает следующие возможности: автоматическое исправление ошибок распознавания и ошибок ручного ввода; чистку отступов, пробелов и пунктуации; приведение к типографским нормам; переформатирование старых текстов с фиксированными переносами строк, переносами слов и отбивкой пробелами; автоматическую работу без вмешательства пользователя в пакетном режиме; возможность легкой проверки и исправления ошибок через журнал исправлений. Данная система распространяется на коммерческих условиях, функционирует под ОС Windows, не обладает программным интерфейсом для запуска пакетной обработки, предназначена для решения типовых пользовательских задач и, как следствие, не подходит для полноценного решения задач диссертационной работы.
Следующая работа [ 106] посвящена корректировке результатов распознавания исторических документов на датском и английском языках. Процесс корректировки запускается после полного окончания распознавания всего корпуса документов. Вместо поиска корректировок для ошибочно написанных слов, производится поиск всех встречающихся форм написания для каждого слова по словарю и высокочастотному списку слов, сформированному по корпусу текстов. Отбираются только те слова, расстояние Левенштейна до которых не превышает заданный порог. Алгоритм поиска схожих слов основывается на вычислении хэша по методу анаграмм, первоначально описанного Мартином Рейнартом в работе по корректировке орфографических ошибок [104] и доработанного позднее для обработки OCR ошибок.
Стоит также выделить ряд работ, рассматривающих методы корректировки, основанные на словарной корректировке с самообучением [17], онлайн сервисах Google по исправлению ошибок и статистическому анализу текстов [52,53], а также работы, описывающие проекты по обработке документов культурного и исторического наследия различных государств [50,64,86] и другие труды [38].

Рекомендуемые диссертации данного раздела

Время генерации: 0.173, запросов: 967