Диссертация на тему "Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия", скачать бесплатно автореферат по специальности 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АННОТАЦИЯ
Целью диссертационной работы является повышение эффективности и качества распознавания в системах распознавания речи (СРР) с динамически расширяемым словарем команд. Исследование проблем автоматического понимания/распознавания речи является важным фундаментальным направлением. Для снижения вероятности неправильного распознавания часто создаются специализированные системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. Однако расширение или изменение словаря команд подобных систем может быть выполнено лишь силами разработчиков СРР и связано с дополнительными временными и финансовыми затратами. От успешного решения задачи создания надежных СРР с динамически расширяемым словарем команд напрямую зависит развитие направления голосового управления как способа человеко-машинного взаимодействия.
В поисках решения данной задачи в работе проводится исследование существующих моделей, методов и алгоритмов распознавания речи с целью выявления степени их соответствия современным требованиям, а так же предлагаются новые модели, методы и алгоритмы, позволяющие повысить эффективность распознавания речевых команд в системах человеко-машинного взаимодействия.

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
Глава 1. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ И ГОЛОСОВОГО УПРАВЛЕНИЯ

1.1. Введение

1.2. Восприятие устной ре

1.3. Общая структура распознающей системы

1.4. Методы спектрального представления речевого сигнала

1.5. Алгоритмы распознавания речи
1.5.1. Алгоритмы распознавания слитной речи
1.5.2. Распознавание речи на основе СММ
1.5.3. Методы голосового управления на основе СММ
1.5.3.1. Метод скользящего окна
1.5.3.2. Метод моделей-заполнителей
1.5.3.3. Анализ рассмотренных методов
1.6. Выводы
Глава 2. ГИБРИД НЫЙ МЕТОД РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД
2.1. Введение
2.2. Применение ключевой фразы в распознавании речевых команд
2.3. Двухуровневая модель речевой команды
2.4. Гибридный метод распознавания речевых команд
2.5. Выводы
Глава 3. АЛГОРИТМ ОГРАНИЧЕННОГО ПЕРЕБОРА, ОСНОВАННЫЙ НА КОМПЛЕКСНОЙ ФУНКЦИИ ПРАВДОПОДОБИЯ
3.1. Введение
3.2. Алгоритм ограниченного перебора
3.3. Функция правдоподобия на основе оптимальных порогов
3.4. Комплексная функция правдоподобия
3.5. Выводы

Глава 4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ И ПРАКТИЧЕСКОГО ПРИМЕНЕНИЯ

4.1. Введение
4.2. Архитектура экспериментальной системы
4.2.1. Шумоочистка
4.2.2. Детектор голоса
4.2.3. Спектральный анализ
4.2.4. Распознавание
4.3. Речевая База Данных
4.4. Выбор языков и инструментальных средств для создания системы
4.5. Проведение экспериментов
4.5.1. Тестируемые модификации системы
4.5.2. Обучающая и контрольная выборки
4.5.3. Способ измерения эффективности методов
4.5.4. Результаты экспериментов
4.6. Реализация результатов исследований
4.6.1. Программный комплекс голосового управления роботом Lego Mindstorms NXT
4.6.2. Система голосового управления видео архивом
4.7. Выводы
ЗАКЛЮЧЕНИЕ
ПРИЛОЖЕНИЕ А
ПРИЛОЖЕНИЕ Б
ПРИЛОЖЕНИЕ В
ПРИЛОЖЕНИЕ Г
ПРИЛОЖЕНИЕ Д
Литература

команда = команда 1 | команда2 | ... | командам, команда1 — «Робот, открыть схват». команда2
командаЫ
Из-за того, что участок звукового сигнала может содержать не только команды для распознавания, но и шум, а также постороннюю речь, направление распознавания голосовых команд считается одним из самых сложных среди направлений распознавания речи. Это обусловлено тем, что в процессе распознавания необходимо не только выбирать наиболее подходящую фразу в соответствии со словарем, но и давать точную оценку правдоподобия распознавания, а именно, является ли распознанное выражение именно тем, что произнес пользователь, или нет. Вторая часть является наиболее трудной, так как точно дать оценку правдоподобия затрудняют следующие факторы:
• различные индивидуальные характеристики людей: специфика произношения, акценты, ударения, хезитации;
• спонтанная речь, которая отличается типом произнесения (тип произнесения — это способ реализации в речи фонемной модели слова [15]). Общеизвестно, что спонтанной речи присуще, как правило, использование неполного типа произнесения. Если сравнивать спонтанную и подготовленную речь, то простое прослушивание показывает, что количество участков неполного типа произнесения в спонтанной речи значительно увеличивается.
• различия в акустической обстановке, шумы.

Название работы	Автор	Дата защиты
Математическая модель термической обработки сырца при получении пеностекла	Демин, Антон Михайлович	2013
Исследование некоторых математических моделей методом быстрых разложений	Лешонков Олег Владимирович	2018
Динамика уравнений первого порядка с большим запаздыванием	Кащенко, Илья Сергеевич	2006

Электронная библиотека диссертаций

Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия

1.1. Введение

1.2. Восприятие устной ре

1.3. Общая структура распознающей системы

1.4. Методы спектрального представления речевого сигнала

Рекомендуемые диссертации данного раздела