Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Чистиков, Павел Геннадьевич
05.13.11
Кандидатская
2013
Санкт-Петербург
134 с. : ил.
Стоимость:
499 руб.
Аннотация
В данной диссертации рассматривается подход к построению системы синтеза русской речи, основанной на интеграции скрытых марковских моделей и метода Unit Selection. В работе приведено подробное описание систем синтеза речи, основанных на скрытых марковских моделях (генеративный синтез) и на методе Unit Selection (конкатенативный синтез). Выбор данных подходов в качестве базовых для построения гибридной системы основан на том, что, с одной стороны, каждый из них в отдельности позволяет добиться качества синтезируемой речи довольно высокого качества [58,59], а, с другой стороны, их объединение позволяет компенсировать присущие им недостатки, в совокупности обеспечивая еще более высокое качество. Для решения задачи моделирования интонации разработана методика создания модели голоса русскоязычного диктора, обеспечивающей в процессе синтеза генерацию параметров голоса для произвольной фразы. В заключении приведены результаты экспериментальных исследований, которые по сравнению с другими подходами демонстрируют высокие оценки, данные системе экспертами. Тесты по оценке производительности позволяют сделать вывод об эффективности реализации алгоритмов и полном соответствии диктуемым рынком требованиям.
Оглавление
Список сокращений
Введение
1 Аналитический обзор
1.1 Подготовка речевого корпуса
1.2 Обработка естественного языка
1.3 Формирование интонационной огибающей синтезируемой фразы .
1.3.1 Генерация контура частоты основного тона методом ресинтеза
1.3.2 Генерация контура частоты основного тона для произвольного предложения
1.3.2.1 Генерация контура частоты основного тона на основе просодически ориентированных баз данных .
1.3.2.2 Генерация контура частоты основного тона на основе лингвистических моделей интонации
1.4 Генерация речевого сигнала
1.4.1 Синтез, основанный на правилах
1.4.2 Синтез, основанный на речевом корпусе
1.4.2.1 Конкатснативный синтез
Дифонный синтез
Unit Selection
1.4.3 Модификация речевого сигнала
1.4.3.1 Модификация параметров речевого сигнала во временной области
1.4.3.2 Модификация параметров речевого сигнала в частотной области
1.4.3.3 Смешанная модификация параметров речевого сигнала
1.4.4 Синтез, основанный на моделях
1.5 Параметризация на основе скрытых марковских моделей
1.5.1 Оценка правдоподобия последовательности наблюдений
1.5.2 Определение оптимальной последовательности состояний .
1.5.3 Обучение модели
1.5.3.1 Определение параметров модели на основе алгоритма Витерби
1.5.3.2 Определение параметров модели на основе алгоритма Баум-Велша
Выводы
2 Автоматизация подготовки звуковой базы данных
2.1 Общая схема гибридной системы синтеза речи
2.2 Методика подготовки речевого корпуса
2.2.1 Методика подготовки текстового корпуса
2.2.2 Автоматический контроль параметров записи фонограмм .
2.2.3 Автоматическая разметка звукового материала
2.3 Методика создания модели голоса
2.3.1 Выбор признаков звуковой единицы русского языка
2.3.2 Реализация кластеризации состояний моделей
2.3.3 Параллельные алгоритмы обучения моделей
2.4 Создание базы звуковых элементов
Выводы
раметром. На графиках (с) и (сі), соответственно, представлены сигналы в частотных интервалах 0-5000Гц и 5000-8000Гц. При сравнении низкочастотной и высокочастотной составляющих, можно заменить, что сигнал, представляющий собой высокочастотную составляющую, синхронен с периодами основного тона. Эту важную особенность необходимо учитывать при моделировании шумовой составляющей.
х 10*
200 -кю боо Время, отсчётов (а) Исходный сигнал
'о 200 400
Время, отсчётов (с) Гармоническая часть (0-50(ЮГц)
2000 4000 6000 8000 0 200 400
Частота, Гц Время, отсчётов
(Ь) Спектр мощности исходного сигнала (й) Шумовая часть (5000-8000Гц)
Рис. 1.3: Фрагмент вокализованного речевого сигнала (а), его спектр мощности (Ь), гармоническая (с) и шумовая (б) составляющие [8]
Гармоническая составляющая представляет собой сумму гармоник с переменными во времени амплитудами и фазами:
МО = Г^ОкМсозуМ) (1-1)
Название работы | Автор | Дата защиты |
---|---|---|
Методика формирования реляционных таблиц на основе информации табличного вида | Мин Тхет Тин | 2015 |
Инструментальные средства поддержки автоматизированной разработки параллельных программ | Акопян, Манук Сосович | 2016 |
Виртуальный футбол роботов : алгоритмы игроков и среда моделирования | Плахов, Андрей Григорьевич | 2008 |