Анализ и автоматическая сегментация речевого сигнала

Анализ и автоматическая сегментация речевого сигнала

Автор: Цыплихин, Александр Иванович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 149 с. ил.

Артикул: 3300843

Автор: Цыплихин, Александр Иванович

Стоимость: 250 руб.

Анализ и автоматическая сегментация речевого сигнала  Анализ и автоматическая сегментация речевого сигнала 

Оглавление
ВВЕДЕНИЕ.
ГЛАВА 1. Методы анализа и сегментации речи
1.1. Методы сегментации.
1.2. Методы анализа основного тона.
1.3. Методы анализа формантных частот
1.4. Смеси распределений
1.5. Заключение
ГЛАВА 2. Акустические параметры
2.1. Импульсы голосового источника.
2.2. Формантные треки
2.3. Характеристики кардинальных элементов.
2.4. Заключение
ГЛАВА 3. Решающие правила
3.1. Байесовский подход.
3.2. Моделирование распределения плотности по выборке
3.3. Метод динамической трансформации шкалы времени
3.4. Заключение.
ГЛАВА 4. Сегментация
4.1. Поиск границ сегментов.
4.2. Распознавание кардинальных типов.
4.3. Результаты тестирования
4.4. Заключение
ОГЛАВЛЕНИЕ
ГЛАВА 5. Автоматическая сегментация в задачах речевых технологий
5.1. Обратная задача для слитной речи
5.2. Распознавание изолированных цифр
5.3. Верификация личности по голосу
5.4. Заключение
ЗАКЛЮЧЕНИЕ.
БИБЛИОГРАФИЯ


Сбор и ручная разметка речевых баз данных (как на словарном, так и на фонетическом уровне) является сложной и трудоёмкой задачей, в особенности для спонтанной речи. Как следствие, достаточно представительные базы речевых данных существуют только для относительно малого числа языков []. Для преодоления этих трудностей были разработаны несколько автоматических алгоритмов фонетической разметки, основанные в большинстве своем на обобщающем принципе «сверху вниз», взятом из распознавания речи. Среди таких подходов - контекстно-зависимый алгоритм Витерби с моделированием вариаций произношения [, ]. Однако, эти алгоритмы разметки эффективны только если выполнено точное моделирование вариантов произнесения и других фонетических явлений, таких как ассимиляция на стыках слов, пропадание удвоений или диалектические вариации, часто встречающиеся в спонтанной речи. Непроизвольные задержки в речи, «фальстарты» и другие нарушения плавности представляют собой еще один источник проблем для этих алгоритмов. В дополнение к этому, требования к точности сегментации для систем синтеза речи по тексту выше, чем для систем распознавания, поскольку системы распознавания направляют усилия на правильно идентификацию речевой последовательности и не требуют точного указания положений границ. Контекстно-независимая сегментация речевого сигнала может быть полезна для решения этих проблем. Среди биометрических методов идентификации (верификации) личности [], то есть автоматического опознавания личности на основании физиологических и поведенческих признаков, большой популярностью пользуются методы идентификации по голосу. Биометрические методы идентификации должны обладать следующими свойствами: универсальность (необходимые параметры можно найти у любого человека), уникальность (разные «значения» для разных людей), постоянство (неизменность во времени), формализуемость (можно измерить количественно), эффективность (высокая точность, низкие требования к ресурсам), субъективная приемлемость (добровольное участие людей), устойчивость к обману (сложно подделать). В этом смысле идентификация по голосу обладает значительными преимуществами по сравнению с другими биометрическими методами, такими как идентификация по отпечатку пальца, по рисунку радужной оболочки глаза, по анализу ДНК и т. Для голосовой верификации характерные признаки голоса должны вычисляться на определенных сегментах речевого сигнала. Частота основного тона, присущая диктору, должна вычисляться на гласноподобных участках сигнала. Форма речевого тракта характеризуется формантными частотами, измеряемыми на известных гласных звуках. Скорость артикуляции определяется по длительностям переходных процессов между артикуляторно-акустическими сегментами. Поэтому для эффективной верификации диктора по голосу необходима надежная сегментация речевого сигнала [, , 6, 0]. В последнее время в мире значительно возрос интерес к так называемой обратной задаче, то есть задаче восстановления формы речевого тракта по акустическому сигналу []. Обратная задача позволяет существенно повысить качество решения большого количества практических речевых задач. Она может быть использована в следующих областях: системы сжатия и передачи речи в мобильной телефонии [, 9], синтезаторы речи по произвольному тексту [, 4], системы автоматического распознавания речи [,5], системы верификации и идентификации диктора по голосу [], системы обучения иноязычному произношению. Обратная задача для слитной речи принципиально не решается без предварительной сегментации сигнала на кардинальные элементы, поскольку для элементов каждого типа используются свои критерии оптимальности и свои акустические признаки. Кардинальные элементы речи [9] представляют собой группы звуков, созданных с использованием существенно различающихся механизмов речеобразования. Сегментация на кардинальные элементы в интересах обратной задачи должна выполняться без использования дополнительной информации о содержании речевого сигнала, то есть независимо от языка и контекста.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.237, запросов: 244