Диссертация на тему "Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection", скачать бесплатно автореферат по специальности 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Аннотация
В данной диссертации рассматривается подход к построению системы синтеза русской речи, основанной на интеграции скрытых марковских моделей и метода Unit Selection. В работе приведено подробное описание систем синтеза речи, основанных на скрытых марковских моделях (генеративный синтез) и на методе Unit Selection (конкатенативный синтез). Выбор данных подходов в качестве базовых для построения гибридной системы основан на том, что, с одной стороны, каждый из них в отдельности позволяет добиться качества синтезируемой речи довольно высокого качества [58,59], а, с другой стороны, их объединение позволяет компенсировать присущие им недостатки, в совокупности обеспечивая еще более высокое качество. Для решения задачи моделирования интонации разработана методика создания модели голоса русскоязычного диктора, обеспечивающей в процессе синтеза генерацию параметров голоса для произвольной фразы. В заключении приведены результаты экспериментальных исследований, которые по сравнению с другими подходами демонстрируют высокие оценки, данные системе экспертами. Тесты по оценке производительности позволяют сделать вывод об эффективности реализации алгоритмов и полном соответствии диктуемым рынком требованиям.

Оглавление
Список сокращений
Введение
1 Аналитический обзор
1.1 Подготовка речевого корпуса
1.2 Обработка естественного языка
1.3 Формирование интонационной огибающей синтезируемой фразы .
1.3.1 Генерация контура частоты основного тона методом ресинтеза
1.3.2 Генерация контура частоты основного тона для произвольного предложения
1.3.2.1 Генерация контура частоты основного тона на основе просодически ориентированных баз данных .
1.3.2.2 Генерация контура частоты основного тона на основе лингвистических моделей интонации
1.4 Генерация речевого сигнала
1.4.1 Синтез, основанный на правилах
1.4.2 Синтез, основанный на речевом корпусе
1.4.2.1 Конкатснативный синтез
Дифонный синтез
Unit Selection
1.4.3 Модификация речевого сигнала

1.4.3.1 Модификация параметров речевого сигнала во временной области
1.4.3.2 Модификация параметров речевого сигнала в частотной области
1.4.3.3 Смешанная модификация параметров речевого сигнала
1.4.4 Синтез, основанный на моделях
1.5 Параметризация на основе скрытых марковских моделей
1.5.1 Оценка правдоподобия последовательности наблюдений
1.5.2 Определение оптимальной последовательности состояний .
1.5.3 Обучение модели
1.5.3.1 Определение параметров модели на основе алгоритма Витерби
1.5.3.2 Определение параметров модели на основе алгоритма Баум-Велша
Выводы
2 Автоматизация подготовки звуковой базы данных
2.1 Общая схема гибридной системы синтеза речи
2.2 Методика подготовки речевого корпуса
2.2.1 Методика подготовки текстового корпуса
2.2.2 Автоматический контроль параметров записи фонограмм .
2.2.3 Автоматическая разметка звукового материала
2.3 Методика создания модели голоса
2.3.1 Выбор признаков звуковой единицы русского языка
2.3.2 Реализация кластеризации состояний моделей
2.3.3 Параллельные алгоритмы обучения моделей
2.4 Создание базы звуковых элементов
Выводы

раметром. На графиках (с) и (сі), соответственно, представлены сигналы в частотных интервалах 0-5000Гц и 5000-8000Гц. При сравнении низкочастотной и высокочастотной составляющих, можно заменить, что сигнал, представляющий собой высокочастотную составляющую, синхронен с периодами основного тона. Эту важную особенность необходимо учитывать при моделировании шумовой составляющей.

х 10*
200 -кю боо Время, отсчётов (а) Исходный сигнал
'о 200 400
Время, отсчётов (с) Гармоническая часть (0-50(ЮГц)

2000 4000 6000 8000 0 200 400
Частота, Гц Время, отсчётов
(Ь) Спектр мощности исходного сигнала (й) Шумовая часть (5000-8000Гц)
Рис. 1.3: Фрагмент вокализованного речевого сигнала (а), его спектр мощности (Ь), гармоническая (с) и шумовая (б) составляющие [8]
Гармоническая составляющая представляет собой сумму гармоник с переменными во времени амплитудами и фазами:

МО = Г^ОкМсозуМ) (1-1)

Название работы	Автор	Дата защиты
Программное обеспечение для исследования фрактальных свойств пространственного распределения изолированных нагруженных точек	Ловягин, Никита Юрьевич	2012
Модели и методы проектирования программных аналитических комплексов с декартово замкнутой категорией	Родионова, Людмила Евгеньевна	2019
Технология автоматизации создания приложений баз данных с ГИС-функциональностью на основе их декларативных спецификаций	Фереферов, Евгений Сергеевич	2014

Электронная библиотека диссертаций

Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection

Рекомендуемые диссертации данного раздела