Вероятностная структура информационных сигналов в системах речевого командного управления

Вероятностная структура информационных сигналов в системах речевого командного управления

Автор: Бочаров, Игорь Владимирович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Санкт-Петербург

Количество страниц: 170 с. ил.

Артикул: 2750686

Автор: Бочаров, Игорь Владимирович

Стоимость: 250 руб.

Вероятностная структура информационных сигналов в системах речевого командного управления  Вероятностная структура информационных сигналов в системах речевого командного управления 

Оглавление
Введение.
1. Общая проблема анализа и распознавания речевых сигналов
1.1. Речевые технологии. Задачи анализа и синтеза речи
1.2. Особенности обмена речевой информацией.
1.3. Структура автоматизированного распознавания речи.
1.4. Системы речевого командного управления..
1.5. Модели сигналов и алгоритмы распознавания речи.
1.5.1. Модель линейного предсказания
1.5.2. Модель спектрального представления.
1.5.3. Модель вейвлетпреобразования
1.5.4. Метод шаблонного сравнения.
1.5.5. Алгоритмы нейронных сетей
1.5.6. Алгоритмы, основанные на моделях Марковских цепей
1.5.7. Алгоритмы нечткой логики
1.5.8. Независимый компонентный анализ
1.6. Основные результаты главы
2. Вероятностная структура речевых сигналов.
2.1. Особенности временной структуры исследуемых сигналов.
2.2. Модель вероятностного распределения
2.3. Спектральнокорреляционные характеристики
2.4. Модель двумерного вероятностного распределения.
2.5. Структура производных речевого сигнала.
2.6. Характеристики типа пересечений уровней для речевых сигналов.
2.7. Исследование фазовых траекторий речевых сигналов.
2.8. Пссвдофазовые траектории речевых сигналов
2.9. Вероятностное распределение огибающей и интенсивности сигнала
2 Основные результаты главы
3. Экспериментальные исследования типовых сигналов речевого
командного управления
3.1. Временные реализации и корреляционные функции типовых сигналов
3.2. Одномерные и двумерные распределения
3.3. Фазовые портреты типовых сигналов.
3.4. Фонемный анализ сигналов речевого управления
3.5. Зависимость структуры речевых сигналов от диктора.
3.6. Основные результаты главы.
4. Точность оценивания параметров речевых сигналов
4.1. Точность оценивания средней интенсивности сигнала.
4.2. Точность оценивания среднего числа пересечений
4.3. Точность оценивания характеристик длительности временных интервалов
4.4. Основные результаты главы.
Заключение.
Литература


При обучении языкам и установке правильной речи в логопедии нашли применение алгоритмы выяснения близости речевого фрагмента с эталонным. Алгоритмы функциональных преобразований речи часто применяются в составе больших систем различного назначения. Принципы сжатия речи используются для архивирования фонограмм и при передаче речевых сигналов по линиям связи. В звукорежиссурс используются алгоритмы сжатия и растяжения речи при сопоставлении видео и звукоряда. Синтез речи является прямо противоположной задачей распознаванию речи, однако по сути и практической реализации задача более простая, чем распознавание речи. Синтез речи используется в автоматических диалоговых системах человек-машина, прежде всего по телефонным линиям, и используется в системах автоматического информирования на вокзалах. Синтезаторы помогают плохо говорящим людям генерировать понятную и разборчивую речь для собеседника. Новой задачей, применяемой в криминалистике, является искажение голоса говорящего до неузнаваемости чтобы затем было невозможным установить личность говорящего. Речевой сигнал имеет сложную изменчивую структуру и плохо поддаётся детальному исследованию. Это является основной причиной сдерживающей развитие речевых технологий, поэтому из всех перечисленных приложений наибольшее практическое применение получили простые и надёжные алгоритмы, дающие предсказуемый понятный результат. На протяжении длительного времени человечество пытается решить задачу распознавания речи и, надо признать, на сегодняшний момент без явно выраженного успеха. Уже первые эксперименты по распознаванию в середине века [2] показали несостоятельность простых статистических моделей речи. Особым свойством речевого сигнала является его изменчивость: два варианта одного и того же слова имеют совершенно разные статистические характеристики, и, вместе с тем, два разных слова могут иметь схожие характеристики. Для дальнейшего развития речевых технологий особое значение имеет учёт всех составляющих информационного обмена между людьми, изучение функционирования органов чувств в процессе распознавания и ориентации, моделирование языка и речи, исследование возможностей бионического подхода к вопросам речевого управления автоматами, формализация средств ведения диалога «человек-машина», представление знаний. Таким образом, чисто технический подход к решению задачи автоматического распознавания речи постепенно переходит к лингвокибернетическому содержанию задачи [3]. На Рис. Рис. Дыхательная, голосообразующая и резонансные системы образуют органы акустической сигнализации [4], воспроизводящие речевой сигнал. Акустический речевой сигнал не делится на буквы, а состоит из непрерывного потока. Процесс фонетического кодирования приводит к временной компрессии речи при которой акустические ключи к начальным и конечным согласным содержатся в переходах от звука к звуку. Фонетические сегменты генерируются не последовательно, а накладываются друг на друга, при этом говорят, что имеет место эффект коартикуляции [5] или же слитной речи. Коартикуляция значительно изменяет виды фонем в составе слова и усложняет дальнейший процесс распознавания, вместе с тем она является способом значительного повышения пропускной способности вербального канала. В непрерывном потоке речи присутствуют периоды стационарности [6], когда артикуляторные движения, образующие фонетический сегмент, имеют внутреннюю стабильность в виде когерентности рисунков мышечной активности. Этот факт активно используется в математическом анализе речи [7] для обоснования использования аппарата стационарных сигналов при их обработке. Изменчивость описывается супрасегментными, а точнее просодическими характеристиками речи [8]. К доминирующим просодическим характеристикам высказывания относятся его тональные, акцентные и ритмические характеристики. Их физическими аналогами являются частота основного тона, энергия и длительность речевого сигнала. Различные просодические инварианты одного и того же высказывания порождают совершенно разные по форме и длительности речевые сигналы, что приводит к сильной вариативности речевых сигналов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.281, запросов: 244