Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация

Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация

Автор: Симончик, Константин Константинович

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Санкт-Петербург

Количество страниц: 187 с. ил.

Артикул: 4899956

Автор: Симончик, Константин Константинович

Стоимость: 250 руб.

Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация  Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация 

ВВЕДЕНИЕ
НАУЧНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ
СТРУКТУРА И ОБЪЕМ РАБОТЫ.
ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СИСТЕМ ВЕРИФИКАЦИИ ПО ГОЛОСУ
1.1. Задача сравнения голосов дикторов.1 з
. 1. I. Формализация задачи.
1.1.2. Виды задач определения диктора по голосу
1.1.3. Основные модули систем сравнения голосов дикторов
1.2. Критерии эффективности систем верификации.
1.2.1. Национальный институт стандартов и технологий США.
1.2.2. Меры эффективности
1.2.3. Результаты автоматического распознавания дикторов I
1.3. Обзор существующих систем верификации по голосу.
1.3.1. система автоматизированного учта и поиска фонограмм
1.3.2. Трал М Система автоматизации фоноучетов и экспрессисследований фонограмм речи
1.3.3. Система Голос.
1.3.4. Система идентификации дикторов
1.3.5. Система Iiii .
1.3.6. Система .
1.4. Основные проблемы верификации дикторов
1.5. Перспективы использования систем сравнения голосов дикюров
1.6. Выводы
ГЛАВА 2. ПРЕДОБРАБОТКА СИГНАЛА И ВЫДЕЛЕНИЕ ХАРАКТЕРИСТИК РЕЧИ.
2.1. Ввод РЕЧИ и ее цифровое представление.
2.2. Предварительная обработка и выделение первичных гриз i .
2.2.1. Дискретное преобразование Фурье.
2.2.2. Цифровые фильтры
2.2.3. Использование оконных функций.
2.2.4. Нормализация уровня сигнала.
2.3. Выделение индивидуальных характеристик речевого сигнала.
2.3.1. Спектральные методы.
2.3.2. Коэффициенты линейного предсказания
2.3.3. Кепстралыюе описание
2.3.4. Идентификация на основании сравнения спектральных характеристик.
2.3.5. Идентификация на основании статистик основного тона.
2.3.6. Использование информации различных лингвистических уровней.
2.4. Комплекс алгоритмов предобработки речевого сигнала.
2.4.1. Схема модуля предобработки речевого сигнала.
2.4.2. Алгоритм детектирования щелчков.
2.4.3. Алгоритм детектирования гудков
2.4.4. Алгоритм детектирования перегрузов
2.4.5. Алгоритм детектирования музыкальных сигналов
2.4.6. Алгоритм детектирования речевого сигнала
2.5. Выводы.
ГЛАВА 3. СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРА С ИСПОЛЬЗОВАНИЕМ СГР И МОВ.
3.1. Математический аппарат СГР и МОВ
3.1.1. Математический аппарат модели Гауссовых смесей.
3.1.2. Обучение модели Гауссовых смесей.
3.1.3. Оценка метода, основанного на построении модели Гауссовых смесей.
3.1.4. Метод Собственных Каналов компенсации канальных искаэсений
3.1.5. Введение понятия Собственного Канала.
3.1.6. Задачи Моценок в Собственных Каналах.
3.1.7. Метод опорных векторов.
3.2. Ме тод текстонезависимой верификации по голосу на основе
использования СГР И МОВ.
3.2.1. Выделитель речевых характеристик.
3.2.2. Создание СГР модели гипотезы диктора.
3.2.3. Модуль классификации методом опорных векторов
3.2.4. Зависимость результатов верификации от языка.
3.3. Разработка методики обучения системы текстонезависимой
системы верификации по голосу.
3.3.1. Создание универсальной фоновой модели
3.3.2. Расчет матрицы компенсации канальных искажений.
3.3.3. Выбор множества опорных векторов.
3.3.4. Методика обучения системы текстонезависимой системы верификации по голосу
3.4. Выводы.
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ
4.1. Описание речевых баз данных для разработки, отладки и
исследования системы верификации по голосу1
4.1.1. Условия сбора речевых баз данных для различных типов каналов
4.1.2. Общие характеристики речевой базы данных, записанной в различных типах каналов
4.2. Оптимизация параметров системы верификации по голосу
4.2.1. Влияние количества опорных векторов на качество системы верификации на базе I .
4.2.2. Влияние количества опорных векторов на качество системы верификации на базе 1V
4.2.3. Оценка влияния предобработки на качество верификации
4.2.4. Выбор параметров системы верификации по голосу для тестирования.
4.3. ШНКА НАДЕЖНОСТИ I1ИЯ ФОНОГРАММ ГОЛОСОВ ЛИЦ В
ЗАВИСИМОСТИ ОТ ДЛИТЕЛЬНОСТИ ФЮГРАММ.
4.4. Оценка надежности кроосклнлльного сравнения фонограмм голосов лиц.
4.5. 1 НАДЕЖНОСТИ I 1ИЯ ФОНОГРАММ, ПРИНАДЛЕЖАЩИХ ОДНОМУ КААЛУ СВЯЗИ
4.6. Исследование качества работы алгори тмов предобработки СИГНАЛА.
4.6.1. Исследование алгоритма детектирования щелчков.
4.6.2. Исследование алгоритма детектирования гудков
4.6.3. Исследование алгоритма детектирования перегрузов
4.7. Выводы.
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ


В таком случае наиболее общей задачей поиска голосов является определение того, являются ли различия в голосах дикторов следствием внутридикторской либо междикторской вариативности. В такой формулировке для точного различения дикторов необходимо, чтобы внутридикторская вариативность была меньше междикторской, то есть различия между записями голоса одного диктора должны быть меньше различий между записями голосов разных дикторов. Следовательно, чем больше коэффициент, определяемый количественным отношением междикторской вариативности к внутридикторской, тем проще распознавать людей по голосу. Задача поиска голосов имеет целый ряд соседствующих задач, которые схожи тем, что определяют различие между людьми по их голосам. Кроме задачи поиска голосов для практических применений наиболее востребована также задача верификации диктора. По постановке задачи и методу работы системы поиска голосов и верификации диктора делятся на текстозависимые и текстонезависимые, а также на системы, работающие на открытом или закрытом множестве дикторов. Если задача поставлена таким образом, что входной сигнал гарантированно принадлежит одному из кандидатов, то сравнение голосов происходит на закрытом множестве дикторов. Если же тестируемая фоног рамма может не принадлежать ни одному из кандидатов, то считается, что задача сравнения голосов решается на открытом множестве дикторов. Система называется текстозависимой, если она заранее обучена на распознавание определенной фразы, которую должен произнести диктор. В реальных системах диктор произносит либо заранее определенную парольную фразу, либо система сама определяет и запрашивает фразу, которую должен произнести диктор. В любом из этих случаев распознаваемая фраза должна быть произнесена каждым из возможных дикторов в процессе обучения системы. Несмотря на то, что текстозависимое распознавание моделирует более детальную информацию о динамике речи диктора, о словарном и фонемном составе фразы, увеличивая эффективность распознавания при уменьшении необходимого количества обучающих речевых данных, необходимость того, чтобы парольная, фраза была произнесена как минимум дважды при тренировке и в процессе работы системы, вносит серьезные ограничения в область применения таких систем на практике. Система распознавания диктора называется текстонезависимой, если она не содержит информации о том, что именно диктор будет произносить. Система обучается и тестируется на произвольных речевых данных. Однако сфера применения подобных систем практически ничем не ораничена, так как они могут быть натренированы и использоваться на произвольных речевых данных для каждого диктора, который в такой ситуации может и не подозревать об использовании его речи в процессе поиска голосов. В данной работе обсуждаются именно текстонезависимые системы. Задача поиска голосов рис. Для системы поиска голосов величина значения существенно влияет на ее эффективность. Для значений порядка нескольких десятков эффективность распознавания может быть весьма высокой особенно если характеристики голосов дикторов отличаются значительно, но при увеличении числа кандидатов вероятность правильного нахождения голоса падает. Рис. Структурная схема системы поиска голосов. В отличие от задачи поиска голосов, задача верификации рис. Эта задача предполагает бинарный ответ данет для каждой пары входной сигнал дикторкандидат. Одной из особенностей задачи верификации является то, что в данном случае эффективность не зависит от числа кандидатов. Тем не менее, это не означает, что система не чувствительна к выбору кандидатов если характеристики голоса кандидата подобраны близко к характеристикам голоса диктора фонограммы, то эффективность системы снижается. Рис. Структурная схема системы верификации диктора. При решении задачи верификации, так же как и при поиске голосов, для каждого дикторакандидата проводится сравнение речевого сигнала с моделью голоса данного диктора. Однако, кроме этого, вычисляется также вероятность того, что речевой сигнал принадлежит какомунибудь другому диктору на основании так называемой общей фоновой модели или модели самозванца на рис.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.242, запросов: 244