+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Исследование и разработка методов автоматизации процессов практической транскрипции имен собственных

  • Автор:

    Логачева, Варвара Константиновна

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2013

  • Место защиты:

    Москва

  • Количество страниц:

    132 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Содержание
Введение
Глава 1. Анализ существующих систем практической транскрипции
1.1 Общая характеристика систем транскрипции
1.2 Ручное составление правил
1.3 Обучение модели транскрипции
1.3.1 Выравнивание
1.3.2 Порождающие методы
1.3.3 Дифференциальные методы
1.4 Соревнование систем транскрипции
1.5 Методы транскрипции
1.6 Смежные задачи
1.7 Выводы к главе
Глава 2. Метод порождения правил транскрипции
2.1 Формат правил
2.2 Предпосылки создания метода
2.3 Метод порождения правил
2.3.1 Первичные правила
2.3.2 Сложные правила
2.3.3 Дальнейшее усовершенствование правил
2.4 Выводы к главе
Глава 3. Метод транскрипции с помощью конечного автомата
3.1 Преобразование строки с использованием правил
3.2 Структура конечного автомата
3.3 Построение конечного автомата
3.4 Детерминированный конечный автомат
3.4.1 Процедура преобразования НКА в ДКА
3.4.2 Унификация системы правил
3.4.3 Эквивалентность НКА и ДКА
3.4.4 Преобразование системы правил в ДКА
3.5 Эквивалентность автомата системе правил
3.6 Усовершенствование конечного автомата
3.7 Скорость работы конечного автомата

3.8 Выводы к главе
Глава 4. Практическая реализация и оценка качества разработанных методов
4.1 Описание программной системы
4.2 Методы оценки качества систем транскрипции
4.3 Обучающие данные
4.4 Оценка метода порождения правил
4.4.1 Анализ правил транскрипции
4.4.2 Численные оценки результатов
4.5 Оценка метода транскрипции
4.6 Выводы к главе
Заключение
Список литературы

Введение
Необходимость правильной организации процессов хранения информации, связанная как с быстрым ростом объемов информации, так и с увеличением количества вовлекаемых предметных областей, привела к появлению в программировании и вычислительной технике целого ряда новых направлений. Это, например, электронный документооборот, а также технологии, сконцентрированные на организационных (CALS-системы1) или технических (ILM2, PDM3 и т.д.) аспектах хранения информации. Применение и развитие электронного документооборота позволило перейти к практической реализации серии крупных проектов (как государственных, так и коммерческих), существенно упрощающих жизнь и работу граждан.
Однако помимо хранения информации остро встает вопрос создания методов и алгоритмов ее обработки. Большинство хранимой документации представлено в текстовом виде, в связи с чем стоит задача разработки специализированных методов и алгоритмов: анализа и синтеза текстов на естественном языке; проверки полноты, корректности документов; проверки отсутствия грамматических ошибок; перевода и др. Так, например, международная торговля предполагает оформление документов, соответствующих международным стандартам, тогда как по российскому законодательству документы должны быть оформлены на русском языке, а значит, возникает необходимость их перевода с/на иностранный. Территориальное распределение технологических процессов требует ведения документации на нескольких языках, что в условиях огромных объемов информации также влечет за собой необходимость использования машинного перевода.
При переводе текста с одного языка на другой имена собственные, встретившиеся в этом тексте, также должны быть каким-то образом переведены, особенно если перевод осуществляется между языками, использующими различные системы письма. Иногда возможен перевод, если у имени есть лексическое значение. Например, мыс Доброй Надежды: африкаанс - Каар die Goeie Hoop, нидерландский
1 CALS-систсма (англ. Continuous Acquisition and Life cycle Support — непрерывная информационная поддержка поставок и жизненного цикла) - система хранения информации о жизненном цикле продукта.
2 ILM-система (англ. Information Lifecycle Management - управление жизненным циклом информации) -система управления электронными хранилищами данных.
3 PDM-система (англ. Product Data Management - система управления данными об изделии) - система для хранения документации о продукте.

другой системы (системы машинного перевода, информационного поиска и пр.), лишь небольшая часть входных данных которой нуждается в транскрипции. При необходимости переводить единичные имена скорость перевода не так важна. О скорости транскрипции упоминается в работе [63]: автор отмечает, что, поскольку многие приложения требуют решать задачу транскрипции в реальном времени, проверка правильности имени с помощью ІШетеІ не может быть использована, так как занимает слишком много времени. Однако проект «Перевод имен», представленный на сайте Яндекс.Нано [102], для ранжирования полученных вариантов перевода использует поисковую систему Яндекс (наиболее вероятным считается имя, для которого в результате поиска было найдено наибольшее количество страниц). Такой подход неприемлем при переводе больших списков имен, но данная система не ставит таких целей.
Для преобразования строк в большинстве методов, по примеру работы Найта [28], одной из первых в области машинной транскрипции, используются стохастические конечные автоматы. Конечный автомат обеспечивает линейную скорость обработки строк, то есть системы транскрипции с самого начала не испытывали сложностей, связанных со временем преобразования имен. Другим распространенным подходом является использование для транскрипции систем машинного перевода. Приверженцы этого метода обычно проводят эксперименты на уже готовом программном обеспечении, предназначенном для преобразования строк в режиме реального времени и использующем быстрые алгоритмы преобразования строк по обученной модели (некоторые алгоритмы поиска и декодирования, применяющиеся в статистических системах машинного перевода, описаны в [103]). Таким образом, в системах транскрипции, использующих статистические методы обучения, проблема скорости преобразования не возникает, поэтому метод транскрипции в работах зарубежных исследователей не рассматривается как отдельная задача.
Исследование возможностей и методов преобразования строк требуется в системах, основанных на правилах. Для первых систем машинной транскрипции, основанных на правилах, никаких данных о методе преобразования и скорости его работы не предоставлено - видимо, по той причине, что эти системы ставили целью проверить возможность автоматизации задачи транскрипции, вопрос

Рекомендуемые диссертации данного раздела

Время генерации: 0.385, запросов: 967