Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Гребнов, Сергей Викторович
05.13.18
Кандидатская
2010
Иваново
120 с. : ил.
Стоимость:
499 руб.
АННОТАЦИЯ
Целью диссертационной работы является повышение эффективности и качества распознавания в системах распознавания речи (СРР) с динамически расширяемым словарем команд. Исследование проблем автоматического понимания/распознавания речи является важным фундаментальным направлением. Для снижения вероятности неправильного распознавания часто создаются специализированные системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. Однако расширение или изменение словаря команд подобных систем может быть выполнено лишь силами разработчиков СРР и связано с дополнительными временными и финансовыми затратами. От успешного решения задачи создания надежных СРР с динамически расширяемым словарем команд напрямую зависит развитие направления голосового управления как способа человеко-машинного взаимодействия.
В поисках решения данной задачи в работе проводится исследование существующих моделей, методов и алгоритмов распознавания речи с целью выявления степени их соответствия современным требованиям, а так же предлагаются новые модели, методы и алгоритмы, позволяющие повысить эффективность распознавания речевых команд в системах человеко-машинного взаимодействия.
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
Глава 1. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ И ГОЛОСОВОГО УПРАВЛЕНИЯ
1.1. Введение
1.2. Восприятие устной ре
1.3. Общая структура распознающей системы
1.4. Методы спектрального представления речевого сигнала
1.5. Алгоритмы распознавания речи
1.5.1. Алгоритмы распознавания слитной речи
1.5.2. Распознавание речи на основе СММ
1.5.3. Методы голосового управления на основе СММ
1.5.3.1. Метод скользящего окна
1.5.3.2. Метод моделей-заполнителей
1.5.3.3. Анализ рассмотренных методов
1.6. Выводы
Глава 2. ГИБРИД НЫЙ МЕТОД РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД
2.1. Введение
2.2. Применение ключевой фразы в распознавании речевых команд
2.3. Двухуровневая модель речевой команды
2.4. Гибридный метод распознавания речевых команд
2.5. Выводы
Глава 3. АЛГОРИТМ ОГРАНИЧЕННОГО ПЕРЕБОРА, ОСНОВАННЫЙ НА КОМПЛЕКСНОЙ ФУНКЦИИ ПРАВДОПОДОБИЯ
3.1. Введение
3.2. Алгоритм ограниченного перебора
3.3. Функция правдоподобия на основе оптимальных порогов
3.4. Комплексная функция правдоподобия
3.5. Выводы
Глава 4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ И ПРАКТИЧЕСКОГО ПРИМЕНЕНИЯ
4.1. Введение
4.2. Архитектура экспериментальной системы
4.2.1. Шумоочистка
4.2.2. Детектор голоса
4.2.3. Спектральный анализ
4.2.4. Распознавание
4.3. Речевая База Данных
4.4. Выбор языков и инструментальных средств для создания системы
4.5. Проведение экспериментов
4.5.1. Тестируемые модификации системы
4.5.2. Обучающая и контрольная выборки
4.5.3. Способ измерения эффективности методов
4.5.4. Результаты экспериментов
4.6. Реализация результатов исследований
4.6.1. Программный комплекс голосового управления роботом Lego Mindstorms NXT
4.6.2. Система голосового управления видео архивом
4.7. Выводы
ЗАКЛЮЧЕНИЕ
ПРИЛОЖЕНИЕ А
ПРИЛОЖЕНИЕ Б
ПРИЛОЖЕНИЕ В
ПРИЛОЖЕНИЕ Г
ПРИЛОЖЕНИЕ Д
Литература
команда = команда 1 | команда2 | ... | командам, команда1 — «Робот, открыть схват». команда2
командаЫ
Из-за того, что участок звукового сигнала может содержать не только команды для распознавания, но и шум, а также постороннюю речь, направление распознавания голосовых команд считается одним из самых сложных среди направлений распознавания речи. Это обусловлено тем, что в процессе распознавания необходимо не только выбирать наиболее подходящую фразу в соответствии со словарем, но и давать точную оценку правдоподобия распознавания, а именно, является ли распознанное выражение именно тем, что произнес пользователь, или нет. Вторая часть является наиболее трудной, так как точно дать оценку правдоподобия затрудняют следующие факторы:
• различные индивидуальные характеристики людей: специфика произношения, акценты, ударения, хезитации;
• спонтанная речь, которая отличается типом произнесения (тип произнесения — это способ реализации в речи фонемной модели слова [15]). Общеизвестно, что спонтанной речи присуще, как правило, использование неполного типа произнесения. Если сравнивать спонтанную и подготовленную речь, то простое прослушивание показывает, что количество участков неполного типа произнесения в спонтанной речи значительно увеличивается.
• различия в акустической обстановке, шумы.
Название работы | Автор | Дата защиты |
---|---|---|
Методы ускорения расчетов математических моделей молекулярной динамики на гибридных вычислительных системах | Марьин, Дмитрий Фагимович | 2015 |
Математические модели системы "паразит-хозяин" | Герасимов, Андрей Николаевич | 2009 |
Математические модели и алгоритмы на графах с нестандартной достижимостью. Динамические графы | Кузьминова, Марина Валерьевна | 2008 |