+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования

  • Автор:

    Медведев, Олег Николаевич

  • Шифр специальности:

    05.12.13

  • Научная степень:

    Кандидатская

  • Год защиты:

    2007

  • Место защиты:

    Москва

  • Количество страниц:

    150 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Условные обозначения (сокращения)
Глава 1 Анализ методов эффективного кодирования речи
в телекоммуникационных системах
1.1 Речевой сигнал и слуховое восприятие речи
1.2 Качество телефонной передачи и его оценка
1.3 Методы эффективного кодирования речи
1.4 Сравнительная оценка качества методов
эффективного кодирования речи
1.5 Выводы и постановка задач исследования
Глава 2 Модели и идентификация параметров
источника речеобразования
2.1 Анализ известных моделей речеобразования
2.2 Разработка новой модели речеобразования на основе
динамической частотно-импульсной модуляции
2.3 Идентификация параметров авторегрессионной модели
голосового тракта по речевому сигналу
2.4 Идентификация параметров источника голосового возбуждения
с динамической частотно-импульсной модуляцией
2.5 Основные результаты
Глава 3 Методы эффективного кодирования речи в классе ЛПАС
с полиномиальным синтезом сигнала погрешности предсказания
3.1 Принципы кодирования
3.2 Оптимизация метода линейного предсказания на основе
рекуррентного МНК со взвешиванием
3.3 Исследование метода преобразования коэффициентов линейного
предсказания в коэффициенты линейных спектральных пар
3.4 Анализ работы долговременного фильтра основного тона
3.5 Анализ и синтез сигнала погрешности предсказания
на основе ортогональных полиномов Чебышева
3.6 Анализ работы оптимизатора кодера и оценка качества синтеза речи
3.7 Основные результаты
Глава 4 Метод эффективного ЛПАС кодирования речи в системе автоматического слежения с учетом ДЧИМ модели голосового возбуждения
4.1 Принцип функционирования кодера
4.2 Математическая модель кодера
4.3 Линейное предсказание с учетом сигнала управления
в системе слежения за речевым сигналом
4.4 Структурная схема и исследование системы
адаптивного слежения за речевым сигналом
4.5 Структурная схема и исследование системы ДЧИМ
4.6 Анализ работы оптимизатора кодера и оценка качества синтеза речи
4.7 Основные результаты
Заключение
Список использованных источников

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ (СОКРАЩЕНИЯ)
гт - Голосовой тракт
гв - Голосовое возбуждение
РС - Речевой сигнал
от - Основной тон
кд - Кодер
дк - Декодер
икм - Импульсно-кодовая модуляция
АДИКМ - Адаптивная дифференциальная ИКМ
ФП - Фильтр предсказатель
спп - Сигнал погрешности предсказания
ЛПАС - Линейное предсказание с анализом через синтез
мнк - Метод наименьших квадратов
клп - Коэффициенты линейного предсказания
лсп - Линейные спектральные пары
вк - Векторное квантование
КС - Классификатор сегментов
кк - Кодовая книга
АР - Авторегрессия
ВФФ - Взвешивающий формантный фильтр
АЧХ - Амплитудно-частотная характеристика
ФЧХ - Фазо-частотная характеристика
ИР - Импульсная реакция
дчим - Динамическая частотно-импульсная модуляция
ДФ - Динамический фильтр
ИУ - Импульсное устройство
ФЗФ - Формозадающий фильтр
шм - Шум маскировки
М08 - Оценка среднего мнения экспертов
осш - Отношение сигнал/шум
скп - Средне квадратичная погрешность
оскп - Относительная средне квадратичная погрешность
СКГІИ - Средне квадратичная погрешность идентификации
скпв - Средне квадратичная погрешность восстановления
скис - Средне квадратичное изменение сигнала
оссп - Отношение сигнал суммарная погрешность
X - Скалярная величина
х-х - Вектор - столбец
~т т X = X - Транспонированный вектор
X - Матрица

Современный этап развития общества характеризуется увеличением потоков речевых сообщений, передаваемых по телекоммуникационным системам и сетям, имеющим ограниченную пропускную способность [4]. Большие трудности возникают также при решении задачи хранения речевых данных, возрастающий поток которых требует все больших объемов памяти запоминающих устройств. С другой стороны, цифровая передача или запись речевых сообщений методом импульсно-кодовой модуляции (ИКМ) со стандартной скоростью 64 кбит/с связаны с избыточным их представлением.
В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей [11,15,31,61,99].
Для технического решения задачи сжатия речевых данных разработано много методов. В значительной мере они представлены в трудах H.H. Акин-фиева, С.П. Баронина, А.И. Величкина, М.Д. Венедиктова, В.И. Галунова, Е.Г. Жилякова, Ю.А. Косарева, В.И. Куля, В.Г. Михайлова, В.Е. Муравьева, М.В. Назарова, A.A. Пирогова, Ю.Н. Прохорова, В.Г. Санникова, М.А. Сапожкова, В.А. Свириденко, И.В. Ситняковского, А.Н. Собакина, О.И. Шелухина, В.Г1. Яковлева, Б.С. Атала, Дж. Д. Гибсона, Б. Голда, А.Х. Грея, Н.С. Джайанта, Ф. Итакуры, Р.В. Кокса, П. Круна, Ж.И. Макхоула, Дж. Маркела, JI. Р. Рабинера, Ч. Рейдера, A.C. Спаниаса, Г. Фанта, Дж. Фланагана, Р.В. Шафера, М.Р. Шрёдера и других российских и зарубежных ученых.

u(t) = a(t)uT(t) + [1 - a(t)]u^(t). (2.1)
Здесь uT(t) - периодическое колебание с периодом ОТ Тот, Uc(t)~ шумовой сигнал, a(t) - кусочно-непрерывная функция, изменяющаяся в пределах от О до 1. При ait) = 1 источник формирует периодический (квазипериодический) процесс, при a{t) = 0 - шумовой, а при 0 < a(t) < 1 - смешанный процесс.
В работе [36] случайную последовательность u(t), моделирующую в дискретном времени функцию возбуждения голосового тракта, предложено получить на выходе нелинейной системы, удовлетворяющей уравнению:
«ж =aa(1 + c/?«MMr] + rBw/> (2.2)
где аи, Д,, уи - параметры модели, с - масштабный коэффициент, wt -гауссовская последовательность с Mvt= 0, Mw] = 1, (p[iit - нелинейная функция сигнала возбуждения, равная (р[и, ] = ut при |и, | < 1 и 1.
Параметр аи характеризует признак «тон - не тон», причем аи = ±1 на вокализованных участках речевого сигнала, и аи =0 на невокализованных. Параметр Ри определяет период ОТ Тот речи. Если уи = 0, то
иТот - Д(1 + cfîu)r°T или Тот = In А“1 / 1п(1 + сри ), 0 < А < 1.
Недостатком модели является резко нелинейная зависимость Тот от Ри-Так при /1=0,5 и с=1 при изменении Тот в пределах от 2 до 14 мс величина Ри изменяется в пределах от ехр(347) до ехр(50). Уменьшить диапазон изменения ри можно лишь выбором величины Л близкой к 1. Однако это приводит к неустойчивому режиму работы данной модели [40].
Голосовой тракт (ГТ). Окончательно звуки речи формируются в голосовом тракте, который при постоянных управляющих воздействиях представляет собой некоторую акустическую резонансную систему. При артикуляции речи управляющие воздействия считаются постоянными на локальных интервалах длительностью 10-20 мс. В процессе речеобразования состояния артикулятор-

Рекомендуемые диссертации данного раздела

Время генерации: 0.137, запросов: 967