Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке

Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке

Автор: Ле Чунг Хьеу

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Санкт-Петербург

Количество страниц: 102 с. ил.

Артикул: 4923925

Автор: Ле Чунг Хьеу

Стоимость: 250 руб.

Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке  Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке 

Оглавление
Введение
1 Особенности обработки вьетнамских текстов
1.1 Обработка естественного языка
1.2 Особенности вьетнамских текстов
1.2.1 Вьетнамский язык
1.2.2 Проблемы обработки вьетнамских текстов
1.3 Программные продукты для обработки естественного языка
2 Методы распознавания образов при графематическом анализе
2.1 Извлечение графе.матических
дескрипторов
2.1.1 Графематические дескрипторы.
2.1.2 Модель извлечения
графсматических дескрипторов.
2.1.3 Графематическая модель вьетнамского языка .
2.2 Распознавание слов и сегментация
предложений
2.2.1 Вероятностная модель
2.2.2 Метод обучения без учителя .
2.2.3 Метод распознавания фраз
3 Оптимизация параметров скрытых марковских моделей при распознавании морфологической структуры
3.1 Морфологическая разметка
корпусов текстов.
3.1.1 Основные понятия и формальная постановка задачи
3.2 Автоматический морфологический
анализ.
3.2.1 Постановка задачи.
3.2.2 Процесс обучения
4 Система автоматической обработки вьетнамских текстов
4.1 Описание функционирования программ
4.2 Состав программного обеспечения.
4.3 Результаты экспериментов .
Заключение .
Литература


Создание математического обеспечения, реализующего методы распознавания образов для автоматической разметки текстов на вьетнамском языке, результаты применения которого могут быть использованы для дальнейшей обработки лингвистами или другими программными системами поиска и автоматического перевода. Методы исследования. В диссертации применяются методы распознавания образов, машинного обучения без учителя, теории вероятностей и математической статистики, имитационного моделирования и системного программирования. Основные результаты. Предложен, обоснован и реализован метод обучения без учителя для распознавания образов слов, словосочетаний и фраз во вьетнамских текстах, позволяющий производить сегментацию предложений на слова и фразы для последующей автоматической морфологической разметки вьетнамских текстов. Разработано математическое и программное обеспечение, реализующее метод поиска образца, предназначенное для выделения различных лексем вьетнамского текста и присваивания им соответствующих графематичееких дескрипторов. Исследованы статистические характеристики образования лексем вьетнамского текста. Предложен и реализован метод скрытой марковской модели для распознавания морфологической структуры предложений во вьетнамских текстах, обоснован алгоритм оптимизации его параметров. Разработана новая программная система для автоматической обработки вьетнамских текстов, с помощью которой сформированы гра-фсматическпй, морфологический и статистический словари значительных размеров, а также аннотированный корпус вьетнамских текстов. Научная новизна. Все основные научные результаты диссертации являются новыми. Теоретическая ценность и практическая значимость. Теоретическая ценность работы состоит в разработке, обосновании и реализации новых алгоритмов распознавания образов слов, сегментации предложений на слова и фразы, а также автоматической морфологической разметки вьетнамских текстов. Предложенные новые алгоритмы могут быть эффективно использованы при решении практических задачах обработки текстов на вьетнамском языке, а также на ряде других (китайском, японском, корейском и т. Созданный программный комплекс для автоматической обработки вьетнамских текстов может быть использовать лингвистами для дальнейшего изучения языка. Результаты автоматической обработки текстов, получаемые с помощью разработанной системы, могут использоваться как лингвистами, так и в других системах поиска и автоматического перевода. Апробация работы. Материалы диссертации докладывались на семинарах кафедры системного программирования математико-механического факультета СПбГУ и на международной конференции: The 2nd Asian Conference on Intelligent Information and Database Systems (l lue, Vietnamc, March -, ). СПбГУ. Публикации. Основные результаты диссертации опубликованы в шести работах. Из них две публикации [, ] в изданиях из перечня ВАК. Работы [. В работе [] Граничину О. Н. принадлежит общая постановка задачи, а Ле Ч. Х. реализации и обоснования описываемых методов, создание демонстрационных примеров и программных средств. В работах [, ] Ле Ч. Х. предложил новые статистические методы распознавания образов и теоретико-вероятностную модель для автоматической сегментации предложений на вьетнамском языке, а его соавторы участвовали в подготовке наборов текстовых данных для апробации новых методов и выполнили часть работы но созданию и доработке нового словаря вьетнамских слов. Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 5 источников. Текст занимает 2 страницы, содержит рисунков и таблиц. Краткое содержание работы. В первой главе “ Особенности обработки вьетнамских текстов” анализируются общие проблемы автоматической естественных языков, а также представлены лингвистические характеристики и атрибуты вьетнамского языка. Одной из серьезных проблем организации человеко-машинного взаимодействия является лингвистический анализ предложения на естественном языке с последующим переводом его на машинный язык вычислительной системы [, , 1, 6]. Общие подходы к решению этой задачи рассматриваются в п. Обычно текст подвергается последовательной обработке графематическим, морфологическим, синтаксическим и семантическим анализаторами []. В и. Особенностью вьетнамского языка является то.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.328, запросов: 244