Диссертация на тему "Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации", скачать бесплатно автореферат по специальности 05.13.01 - Системный анализ, управление и обработка информации (по отраслям)

Оглавление
Введение
1 Анализ существующих технологий восстановления искаженных речевых сигналов
1.1 Речевая информация (РИ) и способы ее оценивания
1.1.1 Разборчивость и понятность как основные показатели целостности смыслового содержания РИ
1.1.2 Особенности процесса речеобразования и слухового восприятия речи
1.1.3 Связь спектральных описаний речевого сигнала с его разборчивостью и фонетической функцией
1.2 Причины и виды спектральных искажений речевой информации
1.2.1 Искажения, обусловленные акустической средой распространения звуковой волны
1.2.2 Искажения речевых сообщений в каналах голосовой связи
1.2.3 Искажения речепреобразующих процессов и устройств
1.2.4 Спектральные искажения без потери исходной РИ
1.2.5 Спектральные искажения с частичной потерей РИ
1.3 Модели нарушителя и угроз информации в выделенных помещениях
1.4 Анализ методов и средств нейтрализации речевых искажений
1.4.1 Методы полосовой фильтрации и клиппирования
1.4.2 Методы адаптивного подавления помех
1.4.3 Методы коррекции спектра РС
1.4.4 Методы сглаживания спектра РС
1.4.5 Технология «звук-изображение-звук»

1.4.6 Сравнительная характеристика наиболее распространенных на российском рынке средств обработки речи
1.5 Постановка задачи и требования к программно-техническим средствам с учетом особенностей современных многоядерных процессоров
Выводы по главе
2 Исследование возможностей образного анализа-синтеза речи к реконструкции и восстановлению искаженных аудиоданных
2.1 Уточнение аналитических описаний речевого сигнала
2.1.1 Анализ традиционных описаний речевого сигнала на вокализованных участках
2.1.2 Уточненное Гауссовское описание речевых вокализмов
2.2 Кратковременный Фурье-анализ и графическое представление речевых сигналов в частотно-временной области
2.2.1 Обоснование выбора шага частотно-временной сетки
2.2.2 Обоснование выбора оконной функции
2.3 Совершенствование методов восстановления речеподобных сигналов по изображениям узкополосных спектрограмм
2.3.1 Общие подходы к синтезу речеподобных сигналов по изображениям спектрограмм
2.3.2. Синтез речи с использованием оригинальной фазограммы
2.3.3 Синтез речи с использованием фазограммы с искусственной протяжкой фазы
2.3.4 Сравнение различных видов синтезов
2.4.Тестирование алгоритмов синтеза звука для случая произвольного изображения
Выводы по главе
3 Разработка и тестирование графического инструментария для восстановления искаженной речи на основе образного анализа-синтеза сонограмм
3.1 Масштабирование и сдвиг изображений сонограмм
3.1.1 Билинейная фильтрация
3.1.2 Интерполяция с помощью ДПФ
3.2 Расслоение, “склейка” и нелинейная фильтрация частотно-временных описаний
3.2.1 Инструменты “Ластик” и “Антиластик”
3.2.2 «Коридор визуализации»
3.2.3 Обработка мультипликативно искаженных спектральных описаний с целью восстановления фонетической функции речи
3.2.4 Медианная фильтрация
3.2.5 Выделение областей спектрограммы
3.2.6 Удаление мешающих аддитивных шумов и квазигармонических сигналов
3.3 Восстановление гармонической и формантной структур искаженных речевых сообщений
3.3.1 Метод восстановления гармонической структуры искаженного речевого сигнала на фоне шумов
3.3.2 Восстановление гармонической структуры РС с потерей информации в частотных полосах
3.3.3 Протяжка по времени линий гармоник основного тона
3.3.4 Восстановление формантной структуры искаженного речевого сигнала при наличии базы данных голоса диктора

связи и энергетических характеристик звуков в речевой волне и описывается ФФ или, другими словами, ФОСД (функцией ощущения спектральной динамики), выражение которой представляется в виде [99]:
где S(ü)j t) и 5(а)71-г)- соответственно спектральная плотность PC в моменты времени t и t-т на определяющей (средней) частоте о), соответствующей, например, равноартикуляционной полосе частот или стандартной частотной полосе канала ТЧ 0.3...3.4 кГц. Интервал времени т, определяющий соседние спектральные разрезы, обычно составляет т = 20мс, что соответствует 50 отсчетам в секунду.
Исследования A.A. Пирогова показали, что каждая фонема отличается главным образом характерным для этой фонемы временным изменением спектрального распределения, а не самим спектральным распределением для данной фонемы [99]. Другими словами, распознавание фонемы обусловлено, в первую очередь, характерным процессом нарастания и спадания интенсивности частотных составляющих ее спектра.
Смысл рассмотренной ФФ (1.10) с информативной точки зрения заключается в том, что она характеризует приращение количества информации на временном интервале времени т (А /т);
Приращение количества информации и значение ФФ удовлетворяют условиям
в основном на начальном и конечном участках гласных звуков. На интервале времени, когда гласный звук сформировался и остается неизменным, что соответствует одной и той же форме РС:
(1.10)
(1.11)
Л1т>0, P[a),t)>о,
(1.12)
5w(t) » 5ü)(t-r), Р(о>, t) ~ О,
(1.13)

Название работы	Автор	Дата защиты
Синтез оптимальных многостадийных систем теплообмена	Ле Куанг Туен	2019
Компьютерная спектральная обработка сигналов в музыкальной акустике на основе параметрического дискретного преобразования Фурье	Пономарева, Наталья Владимировна	2018
Управление рисками обработки информации на основе экспертных оценок	Выборнова, Ольга Николаевна	2017

Электронная библиотека диссертаций

Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации

Рекомендуемые диссертации данного раздела