Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи

Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи

Автор: Карпов, Николай Вячеславович

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2009

Место защиты: Нижний Новгород

Количество страниц: 174 с. ил.

Артикул: 4375907

Автор: Карпов, Николай Вячеславович

Стоимость: 250 руб.

Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи  Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи 

Оглавление
Обозначения и сокращения.
Введениеб
Глава 1. Основные положения информационной теории восприятия речи
1.1. Задача фонетического анализа слитной речи
1.2. Метод обеляющего фильтра.
1.3. Результаты экспериментальных исследований
1.4. Выводы.
Глава 2. Формирование словаря эталонов элементарных речевых единиц
2.1. Задача классификации элементарных речевых единиц.
2.2. Результаты экспериментальных исследований
2.3. Критерий минимума суммы информационных рассогласований.
2.4. Выводы.
Глава 3. Элементы информационной системы фонетического анализа слитной речи
3.1. Архитектура и интерфейс блока ввода информационной системы
3.2. Используемые средства для программирования.
3.3. Оптимизация параметров информационной системы
3.4. Выводы
Глава 4. Формирование фонетической базы данных группы дикторов
4.1. Постановка задачи.
4.2. Структурирование фонетической базы данных методом дерева
4.3. Переопределение дерева фонетической базы данных.
4.4. Выводы
Заключение
Список литературы


Показано, что чем сильнее отличается фонетический состав дикторов, тем большее новых «листьев» добавляется в переопределенное фонетическое дерево, что позволяет дать количественные оценки качественных различий фонетических составов. Практическая ценность работы состоит в том, что разработанный алгоритм и его модификации могут быть применены в современных системах обработки речи, как на основе существующей структуры и состава таких систем, так и путем включения в эти системы в качестве вспомогательных (дополнительных) блоков для обработки и подготовки данных в режиме обучения. РФФИ) К» 2-офи (ориентированные фундаментальные исследования) «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством д. В.В. Савченко. В составе «Информационной системы фонетического анализа слитной речи» он зарегистрирован в государственном реестре программ для ЭВМ под № - по заявке от . Решением Ученого совега НГЛУ от г. Достоверность полученных результатов подтверждается протоколом натурных испытаний лабораторного образца информационной системы, разрабоганного на основе предложенного алгоритма фонетического анализа речи. Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГ'ТУ им. Р.Е. Алексеева, ), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, ), а также на трех ( - ) научных семинарах кафедры «Математика и информатика» НГЛУ. Личный вклад автора заключается в разработке нового алгоритма автоматического формирования фонетической базы данных из речевого сигнала. Кроме того, в соавторстве с научным руководителем (%), разработан метод сравнительного анализа фонетического состава речи разных дикторов на основе их объединенного фонетического дерева. Публикации. Основные результаты, полученные в диссертации, опубликованы в одиннадцати работах, в том числе в шести статьях, среди которых две статьи - в журналах из списка ВАК «Известия вузов России. Радиоэлекпроника» и «Системы управления и информационные технологии». Полный список публикаций представлен в списке литературы. Проблема оптимальности словаря эталонов элементарных речевых единиц является ключевой проблемой для большинства современных методов фонетического анализа речи, таких как метод обеляющего фильтра и другие; их эффективность сильно варьируется при изменении состава обучающей выборки. Использование оптимальных свойств решающей статистики минимума информационного рассогласования в предложенном двухэтапном алгоритме автоматического формирования фонетической базы данных по методу обеляющего фильтра с нормировкой элементарных речевых единиц в значительной мере ослабляет указанную проблему. Как следствие, границы применения алгоритма выходят за рамки гауссовых распределений сигналов. Разработанный алгоритм автоматического формирования фонетической базы данных не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает качественные характеристики, которые используются в основе метода объединенного фонетического дерева. Глава 1. Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от до 0 Гц). В системах передачи речи, таких как телефон, используют сигнал, лежащий в диапазоне частот 0,3 - 3,4 кГц, что несколько ухудшает восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затрагивает разборчивость []. Ограничение частоты снизу (до 0 Гц) также немного ухудшает восприятие из-за потерь низкочастотных гармоник основного тона []. На приведенных ниже рисунках изображены фрагменты речевых сигналов, содержащих гласные (рис. А» и «X» соответственно. Можно заметить очевидную разницу в характере соответствующих сигналов. Рис. Временная диаграмма и СПМ гласного звука «А».

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.234, запросов: 244