+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Выделение и предобработка сигналов в системах автоматического распознавания речевых команд

  • Автор:

    Новоселов, Сергей Александрович

  • Шифр специальности:

    05.12.04

  • Научная степень:

    Кандидатская

  • Год защиты:

    2011

  • Место защиты:

    Владимир

  • Количество страниц:

    146 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ ОБРАБОТКИ И РАСПОЗНАВАНИЯ РЕЧИ

1.1. Задача автоматического распознавания речи

1.2. Речь, природа слуха, модели восприятия речевых сигналов

1.2.2. Природа слуха

1.2.3. Модели восприятия речевых сигналов

1.3. История развития систем распознавания речи

1.4. Голосовое управление, как цель распознавания речи

1.5. Методы детектирования речевой активности. Задача выделения команд

1.6. Цифровые методы повышения качества и разборчивости речи

1.6.1. Методы, основанные на использовании статистических моделей речевых сигналов во временной области

1.6.2. Методы, основанные на обработке речевого сигнала с использованием аппарата скрытых марковских моделей

1.6.3. Методы, основанные на применении искусственных нейронных сетей

1.6.4. Методы, основанные на оценке параметров шума, минимизации среднеквадратичной ошибки и пороговой обработке в области трансформант

1.6.5. Методы пороговой обработки в области вейвлет-преобразования

1.6.6. Методы разделения подпространств сигнала и шума
1.7. Краткие выводы
ГЛАВА 2. АЛГОРИТМ ВЫДЕЛЕНИЯ РЕЧЕВЫХ КОМАНД
2.1. Оценка влияния ошибок сегментации на распознавание команд
2.2. Проблема детектирования речевой активности
2.3. Параметризация речевых сигналов с помощью вейвлет-преобразования и метода главных компонент
2.3.1. Вейвлет-пакетное разложение, адаптированное к мел шкале
2.3.2. Энергия Тегера-Кайзера
2.3.3. Метод главных компонент
2.3.4. Помехоустойчивость коэффициентов главных компонент мел вейвлет-пакетных параметров
2.3.5. Классификация сегментов речевого сигнала
2.4. Модели смесей гауссовских распределений
2.4.1. Алгоритм максимизации правдоподобия
2.4.2. Сложности построения моделей
2.4.3. Определение решающего правила
2.4.4. Обучение моделей
2.5. Алгоритм выделения речевых команд
2.6. Ошибки выделения команд
2.7. Тестирование
2.8. Краткие выводы
ГЛАВА 3. РАСПОЗНАВАНИЕ РЕЧЕВЫХ КОМАНД В УСЛОВИЯХ СТАЦИОНАРНЫХ ШУМОВ
3.1. Оценка влияния наличия шумов на распознавание команд
3.2. Метод нелокального усреднения
3.3. Описание предлагаемого метода фильтрации
3.3.1. Выбор опорного сигнала
3.3.2. Поиск похожих фрагментов
3.3.3. Нелокальное усреднение
3.3.4. Верхняя граница эффективности метода нелокального усреднения для речевых сигналов
3.4. Результаты применения алгоритма шумоподавления
3.5. Применение алгоритмов подавления шума для повышения вероятности верного распознавания голосовых команд
3.6. Система голосового управления мобильным роботом Кочо
3.7. Краткие выводы ЗАКЛЮЧЕНИЕ СПИСОК ЛИТЕРАТУРЫ

Рассмотрим два наиболее общих и известных алгоритма детектирования речевой активности, которые применяются на практике.
G.729 Annex В. G.729 [73] - стандарт кодирования речевых сигналов рекомендованный Международным союзом электросвязи (ITU-T). Применяется для эффективного цифрового представления узкополосной телефонной речи (сигнала телефонного качества). Такая речь характеризуется полосой между 300 и 3400 Гц и может быть оцифрована с частотой дискретизации 8 кГц. Кодер оперирует кадрами речевого сигнала длиной 10 мс. Annex В — расширение стандарта для обеспечения эффективного кодирования пауз в речевом сигнале на основе применения алгоритма ДРА. Детектирование речевой активности происходит по
следующим параметрам:
1. Line spectral frequencies (LSF) — параметры для кодирования коэффициентов линейного предсказания linear prediction coefficients (LPC), основанные на представлении полинома линейного предсказания (область Z -преобразования) в виде суммы «возвратного» и «антивозвратного» полиномов. Коэффициенты линейного предсказания удобно кодировать с помощью корней таких полиномов, которые лежат на единичной окружности в Z-плоскости, и малочувствительны к шумам квантования.
2. Full-band energy - полная энергия фрэйма по всем частотам.
3. Low-band energy - энергия во фрэйме на низких частотах(<1кГц).
4. Zero-crossing rate - количество пересечений через ноль для сигнала
во фрэйме.
Пространство таких параметров жестко разделяется на два подпространства, которые, соответственно, идентифицируют «речевые» и «неречевые» фрэймы. Такое разделение пространства признаков происходит с помощью адаптивного выбора порога на основе анализа энергии шума.
Стандарт мобильных систем GSM применяет алгоритм ДРА предложенный Европейским институтом по стандартизации в области телекоммуникаций ETSI (European Telecommunications Standards Institute)

Рекомендуемые диссертации данного раздела

Время генерации: 0.115, запросов: 967