Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования

Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования

Автор: Губочкин, Иван Вадимович

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Нижний Новгород

Количество страниц: 141 с. ил.

Артикул: 4966254

Автор: Губочкин, Иван Вадимович

Стоимость: 250 руб.

Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования  Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования 

СОДЕРЖАНИЕ
Список основных сокращений
Введение
ГЛАВА 1. Задача автоматического распознавания речи.
1.1. Постановка задачи автоматического распознавания речи. Теоретиковероятностный подход.
1.2. Теоретикоинформационный подход. Критерий минимального информационного рассогласования
1.3. Алгоритм распознавания изолированных слов.
Выводы по главе
ГЛАВА 2. Разработка адаптивной кластерной модели элементарных речевых единиц.
2.1. Задача фонетического анализа речи.
2.2. Результаты математического моделирования алгоритма фонетического анализа речи на основе адаптивной кластерной модели
2.3. Анализ эффективности алгоритма
Выводы по главе
ГЛАВА 3. Результаты экспериментальных исследований алгоритма фонетического анализа речи па основе адаптивной кластерной модели
3.1. Лабораторный образец фонетического анализатора речи.
3.2. Результаты полевых испытаний. Оптимизация фонетической кластерной базы данных.
3.3. Повышение точности алгоритма распознавания речи.
Выводы по главе
ГЛАВА 4. Применение адаптивной кластерной модели в новой технологии
информационного обеспечения при обучении речи слабослышащих
4.1. Обзор существующих подходов к решению задачи обучения речи с визуализацией речевого сигнала.
4.2. Визуализация речевого сигнала на основе кластерной модели речевых
4.3. Результаты натурных испы таний.
Выводы но главе
Заключение.
Список литературы


Критерий качества группирования должен отвечать на вопросы: почему нельзя объединить все объекты в один класс, или, напротив, ввести для каждого объекта собственный класс? Чем хуже такие разбиения некоторого разбиения с промежуточным числом классов? В дискриминантном подходе близость объектов трактуется как расстояние между соответствующими точками в пространстве а группирование — как выделение кластеров - компактно расположенных наборов точек. В связи с этим в рамках дискриминантного подхода задача группирования часто называется задачей кластеризации. В настоящее время наиболее распространенным подходом при решении перечисленных выше задач анализа и распознавания речи является статистический (байесовский) подход []. В его рамках РЕ представляются гауссовой моделью сигналов и моделируются набором классов. Подобный подход имеет' ряд существенных недостатков, таких как невысокая точность и надежность. Для устранения указанных недостатков проф. Савченко В. В. была разработана новая информационная теория восприятия речи (ИТВР) [], основной которой служит критерий минимального информационного рассогласования (МИР) [] и кластерная модель речевых единиц. В настоящее время ИТВР можно считать одной из наиболее перспективных ветвей развития акустической теории речсобразования [ - ]. Информационная теория восприятия речи в своей идеологии следует в русле гипотезы Л. А. Варшавского и И. М. Литвака о том, что качество звуков зависит, в основном, от уровня соотношений мощности в разных спектральных полосах, а форманты (максимумы в спектре) являются лишь доступным способом достижения необходимых межполосных соотношений. Проблема состоит в том, что особенности частотных спектров сильно варьируются (изменяются произвольным образом) не только от одной речевой единицы к другой, но и от одного диктора к другому в пределах одной и той же речевой единицы и даже в пределах одного диктора в зависимости от времени суток, его эмоционального состояния и других второстепенных факторов. Информационная теория восприятия речи предлагает строгий подход к ее решению — на основе теоретико-информационного определения самого понятия «фонема». Г » 1 в сознании человека группируются в соответствующие классы или образы речевых единиц Хг — {хгу}, г = 1,7? В информационной теории восприятия речи указанные эталоны определяются в строгом теоретикоинформационном смысле []: речевая метка х* с Хг образуется как информационный центр-эталон г-го речевого образа, если в пределах множества Xг она характеризуется минимальной суммой информационных рассогласований (ИР) по Кульбаку-Лейбл еру относительно всех других его меток-реализаций хг у> у = 1,. Здесь /? Кульбаку-Лейблеру []. Таким образом, именно в понятии информационного центра (ИЦ) г-го множества реализаций Xг дастся наиболее информативное описание свойств соответствующей речевой единицы. Само же множество формируется путем разбиения анализируемого речевого сигнала Х(() на ряд последовательных сегментов данных х(ґ) длительностью - мс []. Именно па таких временных интервалах речевой сигнал можно считать стационарным. Я. На рис. Рис. Показано [, ], что при несущественных ограничениях данная кластерная модель РЕ охватывает фонетический (звуковой) строй национального языка. Ее применение в задачах распознавания и анализа речи позволило существенно сократить вычислительную сложность используемых для этого алгоритмов (по сравнению с СММ и ИНС) и повысить точность их работы. Кроме того, кластерная модель позволяет существенно снизить требования к объему обучающей выборки в задаче автоматического распознавания речи. Если скрытой марковской модели для уверенного обучения требуется не менее реализаций каждого слова из распознаваемого словаря, то при использовании кластерной модели для обучения достаточно всего нескольких (в идеальном случае одного) эталонных реализаций каждого слова. Это позволяет не только существенно снизить требования к объему обучающей выборки, но и сократить временные затраты на обучение системы распознавания речи. Исследованию и практическому применению рассмотренной кластерной модели речевых единиц посвящена данная диссертационная работа.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.203, запросов: 244