Теоретические основы и методы построения систем фразеологического машинного перевода

Теоретические основы и методы построения систем фразеологического машинного перевода

Автор: Хорошилов, Александр Алексеевич

Шифр специальности: 05.13.17

Научная степень: Докторская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 251 с. ил.

Артикул: 3309439

Автор: Хорошилов, Александр Алексеевич

Стоимость: 250 руб.

СОДЕРЖАНИЕ
Введение
Глава 1. Единицы языка и речи в системах автоматической обработки текстовой информации
Глава 2. Концепция фразеологического машинного перевода текстов с одних естественных языков на другие.
2.1. Предварительные замечания
2.2. Концепция фразеологического машинного перевода текстов.
2.3. Пути реализации концепции фразеологического машинного перевода
2.3.1. Некоторые общие соображения.
2.3.2. Морфологический анализ и синтез русских и английских слов
2.3.3. Семантикосинтаксический анализ и синтез
текстов.
2.3.4. Концептуальный анализ и синтез текстов
2.3.5. Разрешение грамматической неоднозначности английских слов с помощью метода аналогии
2.3.6. Трансфер
Глава 3. Архитектура систем фразеологического
машинного перевода.
3.1. Декларативные и процедурные средства систем машинного перевода
3.2. Общий порядок работы системы КЕТЯАЫЗ.
Выводы.
Глава 4. Автоматизация составления и ведения словарей для систем фразеологического машинного перевода.
4.1. Предварительные замечания
4.2. Составление словарей наименований понятий с контролем по тезаурусу
4.3. Составление словарей наименований понятий без контроля по тезаурусу.
4.4. Установление переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам билингвам
4.4.1 Статистический метод установления переводных
соответствий между словами.
4.4.2. Статистический метод установления переводных
соответствий между словосочетаниями.
4.4.3. Установление переводных соответствий между., словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на
4.5. Общий порядок автоматизированного составления и
ведения фразеологических машинных словарей
Глава 5. Опыт создания и эксплуатации систем
фразеологического машинного перевода
5.1. Начальный этап создания системы
5.2. Дальнейшее развитие системы
5.3. Опыт эксплуатации системы
Заключение
Литература


Такая или подобная ей позиция в отношении так называемых “свободных словосочетаний” сыграла отрицательную роль в истории развития систем машинного перевода текстов с одних естественных языков на другие. Ведь разработчики этих систем в течение по крайней мере тридцати лет (с по г. А это - тупиковое направление исследований и разработок. Впервые об этом четко заявил профессор Макото Нагао, руководитель японской национальной программы по машинному переводу []. По нашему мнению, вопреки мнению В. А. Звегинцева, “свободные словосочетания” в смысловом отношении совсем не никчемны, а наряду с отдельными словами выступают в качестве основных единиц языка и речи, обозначающих понятия. Надо сказать, что в своей практической деятельности человечество уже давно использует словосочетания как основное средство для обозначений понятий. Это нашло свое отражение, в частности, во множестве различных терминологических словарей. В таблице 1. НЕТЯАЫЗ - в русско-английском и англо-русском. В русско-английском словаре обследовались только русские наименования понятий, а в англо-русском словаре - только английские. Словарь ключевых слов и словосочетаний по автоматике и радиоэлектронике (см. ВИНИТИ, и имеет объем более 2 тыс. Русско-английский и англо-русский политематические словари системы машинного перевода ИБТИАИБ (графы 3 и 4) составлялись по широкому спектру текстовых и словарных источников. Они имеют объемы по 2,6 млн. Таблица 1. Внимательное рассмотрение таблицы 1. Например, во всех словарях доля однословных наименований понятий весьма невелика (не более ,7%), а доля остальных наименований понятий убывает по мере роста их длины. Словосочетания длиной более десяти слов встречаются очень редко (например, в словарях системы НЕТИАШ они составляют менее одной десятой доли процента). Пренебрежительное отношение В. А. Звегинцева к словосочетаниям, которые, по его мнению, “в смысловом отношении совершенно никчемны”, основывается на том, что, как он выражается, их выделение в текстах покоится в основном на смысловых признаках и что они не поддаются формальному описанию ([], стр. Но здесь уместно было бы обратиться к Ф. Соссюру, который считал, что все единицы языка не обладают никакими специальными звуковыми особенностями, и их можно определить в потоке речи только по смыслу, как “означающие некоторых понятий” ([], стр 6). Эта истина не опровергнута и в настоящее время, в век вычислительной техники. Именно из-за трудностей формального опознавания единиц языка в потоке речи до сих пор не удается достаточно эффективно решить задачу автоматического распознавания устной речи. И с формальным описанием процессов синтеза устной речи тоже не все обстоит благополучно: например, задачу высококачественной фонетической транскрипции английской письменной речи оказалось возможным решить только с помощью нейронных сетей -т. Наш опыт (см. А для выявления “новых” (не представленных в словарях) наименований понятий, можно применять процедуры приближенного концептуального анализа текстов. Такие процедуры были разработаны и успешно применялись для анализа массивов заголовков документов и текстов рефератов [, ]. Но было не ясно, как будут себя вести подобные процедуры на полных текстах документов. С целью изучения возможности автоматизированного концептуального анализа полных текстов документов автор диссертации провел масштабный эксперимент по выявлению повторяемости в таких текстах их фрагментов. Для этого были сформированы два корпуса политематических текстов: один - на русском языке, другой - на английском. Оба корпуса имели объемы более ста мегабайт и содержали тексты по науке, технике, политике, экономике, законодательству и другим областям человеческой деятельности. В состав корпусов текстов были включены также некоторые произведения художественной литературы. Корпус русских текстов включал в свой состав более млн. Повторяемость фрагментов текстов изучалась путем их автоматического выделения из упомянутых выше корпусов текстов и составления соответствующих частотных словарей.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.229, запросов: 244