+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Технология извлечения табличной информации из электронных документов разных форматов

Технология извлечения табличной информации из электронных документов разных форматов
  • Автор:

    Шигаров, Алексей Олегович

  • Шифр специальности:

    05.25.05

  • Научная степень:

    Кандидатская

  • Год защиты:

    2010

  • Место защиты:

    Иркутск

  • Количество страниц:

    142 с. : ил.

  • Стоимость:

    700 р.

    250 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"Глава 1. Анализ процесса извлечения табличной информации 1.6. Технология извлечения табличной информации


Содержание

Условные обозначения


Введение

Глава 1. Анализ процесса извлечения табличной информации

1.1. Таблицы в документах

1.2. Статистические таблицы

1.3. Форматы входных данных

1.4. Метафайлы

1.5. Известные методы и системы.

1.6. Технология извлечения табличной информации

Глава 2. Обработка страниц документов.


2.1. Обрабатываемые таблицы
2.2. Система координат .
2.3. Модель страницы документа
2.4. Выделение вертикальных промежутков.
2.5. Выделение горизонтальных промежутков
2.6. Обработка метафайлов
2.7. Предобработка страницы.
2.8. Обнаружение таблиц на странице документа.
Глава 3. Анализ и обработка таблиц .
3.1. Модель таблицы.
3.2. Предобработка таблицы
3.3. Анализ функций ячеек таблицы.
3.4. Сегментация таблицы
3.5. Модель структурного описания таблицы .
3.6. Структурный анализ таблицы .
Глава 4. Практическое применение результатов.
4.1. Информационная система извлечения табличной информации .
4.2. Представление структурных описаний таблицы в X.
4.3. Экспериментальная оценка.
4.4. Автоматизация ввода информации в базу данных.
Заключение
Литература


Результаты диссертационной работы успешно использовались в Министерстве сельского хозяйства Иркутской области для ввода информации из электронных статистических отчетов Территориального органа федеральной службы государственной статистики по Иркутской области (Ир-кутскстата) в базу данных (БД) автоматизированной информационной системы (АИС) «Каскад». Предлагаемая технология внедрена в Институте систем энергетики им. Л.А. Мелептьева СО РАН, где используется при создании хранилища данных в составе информационной инфраструктуры исследований в энергетике. Защищаемые положения. Модель страницы документа, которая служит для представления данных страницы, используемых в процессе извлечения табличной информации. Модель структурного описания таблицы, которая предназначена для представления табличных заголовков и данных, а также связей между ними. Личный вклад автора. Основные результаты диссертационной работы получены автором лично, а именно: предложены модель страницы документа, эвристические методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц; разработана информационная система для извлечения табличной информации из метафайлов EMF (Enhanced Metafiles); создана технология извлечения табличной информации из электронных документов разных форматов. В неделимом соавторстве с А. Е. Хмельновым получена модель структурного описания таблицы. В неделимом соавторстве с А. Е. Хмельновым, И. В. Бычковым и Г. М. Руж-никовым получено применение предлагаемой технологии для автоматизации ввода статистической информации в базу данных АИС «Каскад». В работах [-, , ] автором лично предложен эвристический метод обнаружения таблиц и технология извлечения табличной информации из электронных документов разных форматов. В работах [, -] автором в неделимом соавторстве с А. Е. Хмельновым предложена модель структурного описания таблицы. Представление работы. Основные результаты работы докладывались на научно-практических конференциях: Международной конференции «Математические и информационные технологии» (Будва, Черногория, г. IX международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, г. XII, XIII и XIV всероссийской конференции «Информационные и математические технологии в науке и управлении» (Иркутск, , , гг. Иркутск, г. VI и IX школе-семинаре «Математическое моделирование и информационные технологии» (Иркутск, , гг. Школе-семинаре молодых ученых «Информационные технологии и моделирование социальных эколого-экономических систем» (Иркутск, г. Ляпуповские чтения и презентация информационных технологий» (Иркутск. Публикации. По теме диссертации опубликовано научных работ [-], в т. ВАК. Получено 4 свидетельства об официальной регистрации программ для ЭВМ в Роспатенте [0-3]: Ж№ , , , ( г. Таблица — особая форма передачи содержания, которую отличает от текста организация слов и чисел в колонки (графы) и горизонтальные строки таким образом, что каждый элемент является одновременно составной частью и строки, и колонки. Между заголовком колонки, заголовком строки и их общим элементом устанавливается бессловесная, графическая смысловая связь, понимаемая читателем без перевода в словесную форму. Издательский словарь-справочник []. Таблицы являются распространенным способом представления структурированных данных. Они могут содержать текст, числа, формулы, графику. Примером данных, которые обычно представляются в виде таблиц, являются расписания, календари, статистические данные, экспериментальные результаты. Сложность извлечения табличной информации во многом обусловлена большим разнообразием форм изображения таблиц. В обзоре авторов Lopresti D. Nagv G. На Рис. Структура таблиц часто определяется стандартами и соглашениями принятыми в той предметной области, где они используются. Некоторые из таких стандартов приводятся в следующей литературе: ГОСТ 2. Слромсчны* данные flec'icp’^we длинно Флтгрм сгрздвлнющивсоспи. Tp**r»t>CN>Wj»0»T-1 «Л 5«S тт Cf'» xNtMMMi tMf О:А >*:. Эмдос» •'. Див iwmcxe-9 IP да иС^ТАЯЛ» (r«nd. Рис. Примеры таблиц: а —таблица «Генетический код» из статьи автора Crick F. H.C. The Origin of the Genetic Code // J. Mol. Biol. Vol.

Рекомендуемые диссертации данного раздела

Время генерации: 0.700, запросов: 966