+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Модели и методы распознавания иероглифических текстов на примере древнеегипетского языка

  • Автор:

    Кугаевских, Александр Владимирович

  • Шифр специальности:

    05.13.18

  • Научная степень:

    Кандидатская

  • Год защиты:

    2012

  • Место защиты:

    Тюмень

  • Количество страниц:

    117 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Оглавление
Введение
Глава 1. Состояние вопроса и задачи исследования
1.1 Современное состояние вопроса компьютерного представления древнеегипетского текста
1.2 Обзор методов распознавания текстов
1.3 Выводы
Глава 2. Модель распознавания древнеегипетского текста
2.1 Модель идентификации структурных элементов текста
2.2 Модель определения синтаксических параметров текста
2.3 Выводы
Глава 3. Программный комплекс поддержки деятельности египтолога
3.1 Архитектура программного комплекса
3.2 Описание иероглифического текстового редактора
3.3 Описание модуля хранения текстов
3.4 Описание использования технологии параллельных вычислений
3.5 Выводы
Глава 4. Описание вычислительных экспериментов
4.1 Описание механизма тестирования системы распознавания
4.2 Пример распознавания
4.3 Выводы
Выводы по диссертационной работе
Список источников и литературы
Приложение
Приложение
Приложение
Приложение
Приложение

Введение
Актуальность работы. Одной из частных задач распознавания образов является распознавание иероглифических текстов, которое наиболее актуально для стран Юго-Восточной Азии и при изучении древних культур, где языки построены на применении иероглифического письма. В то же время изучение письменности исчезнувших культур порождает дополнительные трудности, связанные со слабой изученностью лингвистики языка и существованием в древних языках синтаксических элементов, связанных с группировкой иероглифов, а также наличие повреждений иероглифов и других синтаксических элементов. Наряду с этим для этих языков требуется использовать применяемые историками методы кодирования текстов.
Решение проблемы распознавания иероглифических текстов наиболее актуально для групп историков, работающих в Берлино-Бранденбургской академии наук (Германия), Центре египтологических исследования РАН (Россия), Утрехтском университете (Нидерланды), Королевском колледже (Оксфорд, Великобритания).
К настоящему времени накоплена достаточная база методов сегментации изображений и их распознавания. В области распознавания образов известны результаты научных школ Загоруйко Н.Г. (Институт математики им. С.Л. Соболева), JI. Бреймана (университет Беркли), Дж. Фридмана (Стэндфордский университет), Я. Лекуна (Университет Нью-Йорка), К. Фукушимы (университет Kansai, Осака, Япония). Задачей распознавания иероглифических текстов занимаются научная школа А.Л. Шамиса (компания ABBYY), фирма NJStar Software Согр и научная школа Фей Йина (Институт автоматизации Китайской Академии Наук).
При этом результаты всех научных школ направлены на распознавание текстов с известной лингвистикой, что недостаточно для распознавания текстов на языках с неизвестной или слабо изученной лингвистикой. Примером такого языка является древнеегипетский язык.

Для компьютерной обработки древнеегипетских текстов в 80-е годы XX века европейские исследователи из Центра по автоматизации египтологических исследований (CCER) разработали стандарт Manuel de Codage (MdC). Решению проблем автоматического преобразования изображений текстов, полученных с исторических артефактов, в цифровой код были посвящены работы французских исследователей Д. Арриваля и Н. Ричарда (D. Arrivault, N. Richard), которые не дали практически значимых результатов. В тоже время историки до сих пор не имеют в своем арсенале инструментальных средств, позволяющих автоматизировать обработку древнеегипетских текстов.
Цель работы - разработка методов распознавания иероглифических текстов для языков со слабо изученной лингвистикой, имеющих в своей структуре сложные грамматические элементы, построенные из нескольких иероглифов, а также создание программного комплекса для работы с древнеегипетскими текстами.
Задачи исследования.
1. Разработка математической модели представления синтаксических структур иероглифических текстов для языков с неизвестной или слабоизученной семантикой.
2. Разработка нейросети распознавания структурных элементов и синтаксических параметров иероглифических текстов и алгоритмов обучения.
3. Разработка программного комплекса, включающего кодировку синтаксических элементов в стандарте MdC, распознавание структурных элементов и синтаксических параметров и систематизацию иероглифических текстов.
4. Проведение вычислительных экспериментов с целью проверки адекватности предложенных методов и алгоритмов.
Объектом исследования являются растровые цветные изображения высокого разрешения, являющиеся фотокопиями иероглифических текстов.

по объектам, неверно классифицированным предыдущими классификаторами. AdaBoost чувствителен к шуму в данных. Однако он менее подвержен переобучению, чем многие другие алгоритмы обучения. Компьютерный эксперимент, опубликованный в [19] показал качество распознавания на уровне 91,72%. Самым эффективным алгоритмом из семейства AdaBoost является Gentle AdaBoost [29]. В качестве простых классификаторов обычно применяют деревья решений CART или С4.5. Применительно к нашей задаче дерево решений получится очень большой сложности, что сильно замедлит распознавание.
Random Forest. В работе [30] был предложен принципиально новый алгоритм распознавания, получивший название рандомизированный решающий лес {Random Forest). Алгоритм по случайно сгенерированной обучающей подвыборке строит решающие деревья до полного исчерпания подвыборки. В отличие от ЮЗ и CART эти деревья не подвергаются прунингу (обрезке лишних узлов). Классификация объектов проводится путём голосования: каждое дерево комитета относит классифицируемый объект к одному из классов, и побеждает класс, за который проголосовало наибольшее число деревьев.
Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке. В случае её отсутствия, минимизируется оценка ошибки out-of-bag: доля примеров обучающей выборки, неправильно классифицируемых комитетом, если не учитывать голоса деревьев на примерах, входящих в их собственную обучающую подвыборку.
Качество работы решающего леса выше чем у нейронных сетей и
сравнимо с бустингом, т.е. процент верно классифицированных объектов на
уровне 92%. Способен эффективно обрабатывать данные с большим числом
признаков и классов. Нечувствителен к масштабированию (и к любым
монотонным преобразованиям) значений признаков. Одинаково хорошо
обрабатываются как непрерывные, так и дискретные признаки. Высокая

Рекомендуемые диссертации данного раздела

Время генерации: 0.116, запросов: 967