+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии

  • Автор:

    Левин, Кирилл Евгеньевич

  • Шифр специальности:

    05.12.13

  • Научная степень:

    Кандидатская

  • Год защиты:

    2006

  • Место защиты:

    Владимир

  • Количество страниц:

    148 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

1. Анализ факторов, влияющих на достоверность автоматического распознавания голосовых команд в компьютерной телефонии
1.1. Факторы, определяющие достоверность распознавания
1.2. Методы повышения помехоустойчивости системы распознавания голосовых команд
1.3. Выбор системы параметров речевого сигнала
Выводы к главе
2. Оценка достоверности распознавания и исследование алгоритмов обработки речевых сигналов
2.1. Методы оценки достоверности распознавания
2.1.1. Анализ влияния помех на достоверность распознавания
2.1.2. Анализ влияния параметров моделей голосовых команд на достоверность распознавания
2.2. Поэтапное построение моделей команд с контролем качества моделей на каждом этапе
2.3. Исследование алгоритмов подавления Помех
2.3.1. Использование фильтра Винера
2.3.2. Адаптивная компенсация помех
Выводы к главе 2
3. Программный комплекс для исследований алгоритмов обработки речевого сигнала
3.1. Требования, предъявляемые к комплексу
3.2. Структура комплекса и особенности его реализации
3.3. Оценка достоверности распознавания и исследование алгоритмов обработки речевых сигналов средствами комплекса
3.3.1. Оценка достоверности распознавания
3.3.2. Определение параметров огибающей кратковременного спектра сигнала
3.3.3. Определение частоты основного тона
3.3.4. Компенсация помех
Выводы к главе
4. Система прямого доступа к абонентам учреященческой АТС, управляемая голосовыми командами
4.1. Общая характеристика системы
4.2. Особенности аппаратного обеспечения
4.3. Структура программного обеспечения
4.4. Алгоритм построения моделей голосовых команд
Выводы к главе
Заключение
Библиографический список
П.1. Акты внедрения и решения конкурсных комиссий
П.2. Основные динамические модули программного комплекса для разработки системы автоматического распознавания
голосовых команд
П.З. Описание блока сопряжения персонального компьютера с АТС учреждения
Список сокращений
AMDF - average magnitude difference function (функция средней разности) DTMF - Dual-Tone Multi-Frequency двухтональный многочастотный набор (телефонного номера)
LPC - linear predictive coding (кодирование с линейным предсказанием)
PLP - perceptual linear prediction (линейное предсказание с учетом
модели человеческого слухового восприятия)
АКФ - автокорреляционная функция
АФ - анализирующий фильтр
АЦП - аналогово-цифровой преобразователь
АЧХ - амплитудно-частотная характеристика
БПФ - быстрое преобразование Фурье
ГГС - генератор гармонического сигнала
ГИ - генератор импульсов
ГК - голосовая команда
ГШ - генератор шума
ДПФ - дискретное преобразование Фурье
ИХ - импульсная характеристика
КТ - компьютерная телефония
КЛП - коэффициенты линейного предсказания
КЧК - коэффициенты частной корреляции
МО - математическое ожидание
МСМП - модель скрытого марковского процесса
ОТ - основной тон
ПО - программное обеспечение
ПФ - преобразование Фурье
PC - речевой сигнал
САР ГК - система автоматического распознавания голосовых команд САРР - система автоматического распознавания речи

Государственный стандарт ГОСТ 16600-72 [35] определяет требования к разборчивости речи при передаче речи по трактам радиотелефонной связи. В нем указано, что распознавание отдельных слов должно осуществляться с вероятностью 0,95 для понимания речи без малейшего напряжения внимания. Таким образом, в худшем случае создаваемая САР ГК должна обеспечить относительную частоту ошибок распознавания менее 5% для наиболее неуверенно распознаваемой голосовой команды.
В большинстве САР ГК для компьютерной телефонии предполагается, что команды могут быть поданы различными дикторами, особенности голосов которых заранее неизвестны. Следовательно, при проектировании САР необходимо учесть ее дикторонезависимость
Системы компьютерной телефонии могут использовать как длительные диалоги с пользователем (например, заказ авиабилетов), так и очень короткие, состоящие из единственного вопроса, на который предусмотрен односложный ответ (например, системы прямого доступа к абонентам учрежденческой АТС). При создании САР необходимо учесть, что в случае коротких диалогов использование систем адаптивной настройки САР на параметры помех и голос диктора нецелесообразно.
Состав словаря распознавания также определяется областью применения САР. Для распознавания команд могут применяться словари от нескольких десятков слов до нескольких тысяч.
Следующий этап разработки САР - выбор набора параметров, описывающих речевой сигнал, а также методов предварительной обработки. Выбор параметров зависит от требуемой помехоустойчивости. Перед нахождением параметров РС целесообразно пропустить сигнал через полосовой фильтр 300-3400 Гц для подавления внеполосных помех.
Далее необходимо создать обучающую выборку для нахождения параметров моделей СМП. От ее выбора зависит, насколько точно созданные модели будут описывать соответствующие звуки речи. Поскольку в данной работе рассматриваются дикторонезависимые САР для систем компьютерной

Рекомендуемые диссертации данного раздела

Время генерации: 0.115, запросов: 967