Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа

Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа

Автор: Киселев, Алексей Николаевич

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Тула

Количество страниц: 192 с. ил.

Артикул: 2748442

Автор: Киселев, Алексей Николаевич

Стоимость: 250 руб.

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
1. Анализ технических средств и методов преобразования, обработки и распознавания речевых сигналов
1.1. Структура систем регистрации, накопления и обработки
речевых сигналов.
1.2. Классификация систем распознавания речи
1.3. Особенности речевых сигналов. Основные характеристики, используемые в системах распознавания речи.
1.4. Методы обработки речевых сигналов в задачах распознавания речи
1.5. Выводы.
2. Определение основных параметров частотновременного анализа.
2.1. Введение.
2.2. Модель источника речевых сигналов
2.3. Моделирование смены состояний речи марковским процессом
с дискретным временем
2.4. Определение оптимального размера окна преобразования для марковского процесса с дискретным временем.
2.5. Определение оптимального шага смещения окна преобразования для марковского процесса с дискретным временем
2.6. Зависимость вероятности правильного распознавания состояния от шага смещения окна преобразования по времени
2.7. Моделирование смены состояний источника речи марковским процессом с непрерывным временем.
2.8. Определение оптимального шага смещения окна
преобразования для марковского процесса с непрерывным временем.
2.9. Выводы
3. Адаптивный частотновременной анализ сигналов в задачах дикторонезависимого распознавания речи.
3.1. Введение
3.2. Связь между структурой, моделью и процессом распознавания
3.3. Определение параметров модели.
3.4. Предсказание состояний. Способ коррекции вектора
вероятностей состояний системы.
3.5. Метод адаптивного частотновременного анализа в задачах
дикторонезависимого распознавания речи.
3.6. Особенности формантного анализа на основе непрерывного
вейвлетпреобразования.
3.7. Выводы
4. Экспериментальное исследование модели источника речевых сигналов и метода адаптивного частотновременного анализа.
4.1. Задачи и условия проведения экспериментов
4.2. Особенности вычисления непрерывного вейвлет
преобразования. Ускорение вычислений.
4.3. Выбор шкалы частот вейвлетпреобразования для формирования полных частотновременных картин речевых сигналов
4.4. Визуализация результатов вейвлетпреобразования.
4.5. Алгоритм нахождения частоты основного тона и определения
вокализованностиневокализованности участка речевого сигнала на основе непрерывного вейвлетпреобразования.
4.6. Сегментирование речевого сигнала.
4.7. Периодичность гласных фонем
4.8. Дикторонезависимые признаки гласных фонем. Алгоритм формантного анализа на основе непрерывного вейвлетпреобразования.
4.9. Дикторонезависимые признаки фрикативных фонем
4 Дикторонезависимые признаки глухих взрывных фонем
4 Экспериментальное исследование точности оценки У параметров дикторонезависимых признаков методом адаптивного
частотновременного анализа.
4 Экспериментальное исследование адекватности разработанной модели источника речи и вычислительных затрат метода адаптивного частотновременного анализа.
4 Выводы.
Заключение.
Список литературы


Предложен следующий алгоритм выделения частоты основного тона и определения вокализованностиневокализованности участка речевого сигнала на основе непрерывного вейвлетпреобразования. Разработана процедура оценки частоты основного тона и формантного анализа вокализованных фонем, и оценки параметров невокализованных фонем на основе непрерывного вейвлетпреобразования. Рассмотрены вопросы сегментирования речевого сигнала. Приведена экспериментальная зависимость периода элементарных повторяющихся частей вокализованных фонем от частоты основного тона, которая может быть использована при сегментировании речевого сигнала. Найдены дикторонезависимые признаки фонем различных групп согласно приведенной классификации по акустическим свойствам. Для гласных фонем ими оказались отношения формантных частот к частоте основного тона. Для глухих фрикативных фонем Ф, Ш, С, X ими оказались положения локальных максимумов усредненных вейвлетспектров, характеризующие распределение энергии фрикативного шума по частотам. Для глухих взрывных фонем в качестве дикторонезависимого признака может быть использована длительность присутствия в сигнале фрикативного шума, связанного с прохождением выдыхаемого воздуха через голосовую щель. На статистическом материале эталонных речевых сигналов проведено экспериментальное исследование с целью сравнительного анализа точности оценки параметров дикторонезависимых признаков фонем с применением разработанного метода адаптивного частотновременного анализа и точности оценки параметров дикторонезависимых признаков фонем с применением метода быстрого преобразования Фурье, нашедшим широкое применение в существующих системах распознавания речи. Сделан вывод о целесообразности применения в задачах дикторонезависимого распознавания речи адаптивного частотновременного анализа на основе непрерывного вейвлетпреобразования. В заключении сделаны выводы по работе. В приложении приведены фрагменты программного обеспечения, вейвлетпортреты речевых сигналов различных фонем, произнесенных различными дикторами, основные результаты экспериментов с вейвлетпортретами речевых сигналов. Структура систем регистрации, накопления и обработки речевых сигналов, представляющих собой аппаратнопрограммный комплекс распознавания речи представлена на рис. На микрофон, выполняющий функцию датчика системы, попадает речевой сигнал, который переводится в аналоговый электрический сигнал хг. Последующая обработка речевого сигнала с целью распознавания в нем тех или иных речевых конструкций осуществляется программным обеспечением системы распознавания речи, выполняемым средствами ПК. Т ширина окна преобразования, X множество анализируемых частот и т множество смещений окна преобразования. Информационная подсистема. МЫШЬ. Информационная подсистема. Рис. Блок распознавания БР, на основе заложенных в него механизмов и моделей классификации и поиска речевых конструкций определенного уровня фонем, морфем, слов и т. Все приведенные в ней компоненты аппаратного обеспечения и блоки программного обеспечения являются обязательными. Понятие системы распознавания речи было дано во введении. В настоящее время существует множество СРР начиная от простейших систем распознавания коротких фраз, применяемых при голосовом наборе номеров в сотовых телефонах, заканчивая сложными системами распознавания текста и команд, с тесной интеграцией с операционными системами и офисными приложениями. Классификация систем распознавания речи по возможностям их применения, приведенная на рис. Основными проблемами, с которыми сталкиваются разработчики подобных систем являются ограниченность вычислительных ресурсов и оперативной памяти существующих офисных систем, а также отсутствие методов выделения в речевом сигнале дикторонезависимых признаков. Первая проблема постепенно отходит на второй план вследствие резкого роста вычислительных возможностей персональных ЭВМ наряду с их удешевлением. Вторая же проблема связана не только с трудностями нахождения универсальных независящих от диктора признаков речевых конструкций, но и с ограничениями, которые накладывают применяемые методы частотновременного анализа речевых сигналов и статистического моделирования речи.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.230, запросов: 244