Технология извлечения табличной информации из электронных документов разных форматов

Технология извлечения табличной информации из электронных документов разных форматов

Автор: Шигаров, Алексей Олегович

Шифр специальности: 05.25.05

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Иркутск

Количество страниц: 142 с. ил.

Артикул: 4636747

Автор: Шигаров, Алексей Олегович

Стоимость: 250 руб.

Технология извлечения табличной информации из электронных документов разных форматов  Технология извлечения табличной информации из электронных документов разных форматов 

Содержание
Условные обозначения
Введение
Глава 1. Анализ процесса извлечения табличной информации
1.1. Таблицы в документах
1.2. Статистические таблицы
1.3. Форматы входных данных
1.4. Метафайлы
1.5. Известные методы и системы.
1.6. Технология извлечения табличной информации
Глава 2. Обработка страниц документов.
2.1. Обрабатываемые таблицы
2.2. Система координат .
2.3. Модель страницы документа
2.4. Выделение вертикальных промежутков.
2.5. Выделение горизонтальных промежутков
2.6. Обработка метафайлов
2.7. Предобработка страницы.
2.8. Обнаружение таблиц на странице документа.
Глава 3. Анализ и обработка таблиц .
3.1. Модель таблицы.
3.2. Предобработка таблицы
3.3. Анализ функций ячеек таблицы.
3.4. Сегментация таблицы
3.5. Модель структурного описания таблицы .
3.6. Структурный анализ таблицы .
Глава 4. Практическое применение результатов.
4.1. Информационная система извлечения табличной информации .
4.2. Представление структурных описаний таблицы в X.
4.3. Экспериментальная оценка.
4.4. Автоматизация ввода информации в базу данных.
Заключение
Литература


Результаты диссертационной работы успешно использовались в Министерстве сельского хозяйства Иркутской области для ввода информации из электронных статистических отчетов Территориального органа федеральной службы государственной статистики по Иркутской области (Ир-кутскстата) в базу данных (БД) автоматизированной информационной системы (АИС) «Каскад». Предлагаемая технология внедрена в Институте систем энергетики им. Л.А. Мелептьева СО РАН, где используется при создании хранилища данных в составе информационной инфраструктуры исследований в энергетике. Защищаемые положения. Модель страницы документа, которая служит для представления данных страницы, используемых в процессе извлечения табличной информации. Модель структурного описания таблицы, которая предназначена для представления табличных заголовков и данных, а также связей между ними. Личный вклад автора. Основные результаты диссертационной работы получены автором лично, а именно: предложены модель страницы документа, эвристические методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц; разработана информационная система для извлечения табличной информации из метафайлов EMF (Enhanced Metafiles); создана технология извлечения табличной информации из электронных документов разных форматов. В неделимом соавторстве с А. Е. Хмельновым получена модель структурного описания таблицы. В неделимом соавторстве с А. Е. Хмельновым, И. В. Бычковым и Г. М. Руж-никовым получено применение предлагаемой технологии для автоматизации ввода статистической информации в базу данных АИС «Каскад». В работах [-, , ] автором лично предложен эвристический метод обнаружения таблиц и технология извлечения табличной информации из электронных документов разных форматов. В работах [, -] автором в неделимом соавторстве с А. Е. Хмельновым предложена модель структурного описания таблицы. Представление работы. Основные результаты работы докладывались на научно-практических конференциях: Международной конференции «Математические и информационные технологии» (Будва, Черногория, г. IX международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, г. XII, XIII и XIV всероссийской конференции «Информационные и математические технологии в науке и управлении» (Иркутск, , , гг. Иркутск, г. VI и IX школе-семинаре «Математическое моделирование и информационные технологии» (Иркутск, , гг. Школе-семинаре молодых ученых «Информационные технологии и моделирование социальных эколого-экономических систем» (Иркутск, г. Ляпуповские чтения и презентация информационных технологий» (Иркутск. Публикации. По теме диссертации опубликовано научных работ [-], в т. ВАК. Получено 4 свидетельства об официальной регистрации программ для ЭВМ в Роспатенте [0-3]: Ж№ , , , ( г. Таблица — особая форма передачи содержания, которую отличает от текста организация слов и чисел в колонки (графы) и горизонтальные строки таким образом, что каждый элемент является одновременно составной частью и строки, и колонки. Между заголовком колонки, заголовком строки и их общим элементом устанавливается бессловесная, графическая смысловая связь, понимаемая читателем без перевода в словесную форму. Издательский словарь-справочник []. Таблицы являются распространенным способом представления структурированных данных. Они могут содержать текст, числа, формулы, графику. Примером данных, которые обычно представляются в виде таблиц, являются расписания, календари, статистические данные, экспериментальные результаты. Сложность извлечения табличной информации во многом обусловлена большим разнообразием форм изображения таблиц. В обзоре авторов Lopresti D. Nagv G. На Рис. Структура таблиц часто определяется стандартами и соглашениями принятыми в той предметной области, где они используются. Некоторые из таких стандартов приводятся в следующей литературе: ГОСТ 2. Слромсчны* данные flec'icp’^we длинно Флтгрм сгрздвлнющивсоспи. Tp**r»t>CN>Wj»0»T-1 «Л 5«S тт Cf'» xNtMMMi tMf О:А >*:. Эмдос» •'. Див iwmcxe-9 IP да иС^ТАЯЛ» (r«nd. Рис. Примеры таблиц: а —таблица «Генетический код» из статьи автора Crick F. H.C. The Origin of the Genetic Code // J. Mol. Biol. Vol.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.201, запросов: 228