Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи

Автор: Нгуен Ван Хунг

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Москва

Количество страниц: 128 с. ил.

Артикул: 4838406

Автор: Нгуен Ван Хунг

Стоимость: 250 руб.

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи  Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ.
Актуальность темы
Цель диссертационной работы
Методы исследований
Научная новизна
I фактическая ценность диссертации.
Апробация работы.
Личный вклад диссертанта.
Публикации.
Структура и объм работы.
1. ПРОБЛЕМА РАСПОЗНАВАНИЯ РЕЧИ И ОСОБЕННОСТИ ВЬЕТНАМСКОЙ РЕЧИ
1.1 Проблема распознавания речи.
1.2 Обзор и классификации методов распознавания речи
1.3 Специфика вьетнамского языка, связанная с распознаванием речи.
1.4 Конкретизация задачи и схема е решения.
1.5 Выводы
2. ПОЛУЧЕНИЕ ВХОДНОГО ЗВУКОВОГО СИГНАЛА И ОБНАРУЖЕНИЕ РЕЧЕВОГО СИГНАЛА НА ФОНЕ ШУМОВ
2.1 Получение входного звукового сигнала
1.2 Проблема обнаружения речевого сигнала на фоне шумов.
2.3 Алгоритм определения крайних точек речи.
2.4 Результаты экспериментов
2.5 Выводы
3. СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ ВЬЕТНАМСКОГО ЯЗЫКА НА ОТДЕЛЬНЫЕ СЛОВА.
3.1 Проблема слога во вьетнамском языке.
3.2 Алгоритм сегментации речевого сигнала на слоги
2.3 Результаты экспериментов
2.4 Оценка точности алгоритма сегментации фраз на слова.
3.5 Выводы
4. ФОРМИРОВАНИЕ ДИНАМИКИ ФОРМАНТ РЕЧЕВОГО СИГНАЛА
4.1 Проблема разбиения голосовых участков речи на квазипериоды равные периодам основного тона.
4.2 Алгоритм разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.
4.3 Оценка точности работы алгоритма
4.4 Спектральный анализ и формирование динамики формант.
4.5 Результаты экспериментов
4.6 Выводы
5. ОРГАНИЗАЦИЯ БАЗЫ ДАННЫХ. ВЫБОР ЭТАЛОНОВ И РАСПОЗНАВАНИЕ РЕЧЕВЫХ КОМАНД
4.1 Организация базы данных для хранения словаря распознавания, входного сигнала и эталонов.
5.2 Формирование эталонов для распознавания слов и сохранение их в базе данных
5.3 Распознавание речевых команд
5.4 Оценка результатов распознавания.
5.5 Программа поэтапного просмотра результатов обработки речевого сигнала и распознавания.
5.6 Выводы
ЗАКЛЮЧЕНИЕ.
ЛИТЕРАТУРА


В работе использовались методы математического анализа, методы цифровой обработки сигнала, теории распознавания образов и теории вероятностей. Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума. Предложен новый метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона. Предложен новый метод формирования динамики формант по результатам спектрального анализа. Предложены методы формирования эталонов для распознавания слов и фраз, основанные на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи. Предложены новые методы анализа речевого сигнала и новые методы распознавания ограниченного команд вьетнамской речи. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались. Построена программа отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программа может быть полезна специальным исследователям речевого сигнала и преподавателям, ведущим занятия в этой области. Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, и г. Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом. По материалам диссертации опубликовано 3 печатных работы, в том числе одна в журиале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце диссертации. Диссертация состоит из введения, пяти глав, заключения, одного приложения и библиографического списка, использованных источников из наименований. Общий объём работы составляет 8 страницы, в том числе рисунков и таблиц. Глава 1: проблема распознавания речи и особенности вьетнамской речи. Проблема распознавания речи. Обзор проблемы распознавания речи, классификация методов распознавания речи. Знакомство с особенностями вьетнамского языка, влияющими на проблему распознавания вьетнамской речи. Конкретизация задачи и схема её решения. Глава 2 Получение входного звукового сигнала и обнаружение речевого сигнала на фоне шумов. Получение входного звукового сигнала. Алгоритм обнаружения речевого сигнала на фоне шумов. Глава 3: Сегментация речевых сигналов вьетнамского языка на отдельные слова. Представлен алгоритм сегментации речевого сигнала вьетнамского языка на блоки сигналов, соответствующие словам. Глава 4 Формирование динамики формант речевого сигнала. Представлен алгоритм разделения речевого сигнала на щелевой и голосовой сигнал. Для анализа сигнала используется преобразование Фурье. Щелевой сигнал разделяется на сегменты длиной в мс (соответствующие 6 отсчётам значений сигнала). При их анализе используется БПФ. Голосовой сигнал разделяется на квазипериоды равные интервалам основного тона (о. Для их анализа используется ДГІФ. Спектр амплитуд после преобразования Фурье назовём спектральным срезом. По спектру амплитуд рассчитываются форманты. Формантный комплект спектрального среза создаёт формантный срез. Слово превращается в последовательность формантных срезов. Из формантной картины слова сформируется текущий спектр формант по всему слову. Глава 5: Организация базы данных. Выбор эталонов и распознавание речевых команд. База данных используется для записи входного сигнала и записи образцов для распознавания. Программа позволяет автоматически записывать произношение фраз пользователем. Рассмотрены два метода формирования эталонов для распознавания слов и регистрации этих данных в базе данных. Рассмотрены методы сравнения входной фразы с эталонами. Показаны результаты распознавания отдельных слов и фраз. Введены программы отображения звукового сигнала и результатов его анализа. Эта программа используется для проверки результатов работы алгоритмов в процессе исследования речи.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.212, запросов: 244