Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи

Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи

Автор: Кушнир, Дмитрий Алексеевич

Автор: Кушнир, Дмитрий Алексеевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 182 с. ил.

Артикул: 3301027

Стоимость: 250 руб.

Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи  Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи 

СОДЕРЖАНИЕ
Содержание.
Введение.
Глава 1. Аналитический обзор методов обработки речевого сигнала. Общая структура систем распознавания речи.
Основные принципы построения СРР с применением нейросетевых технологий.
1.1. Основные особенности задачи распознавания
1.2. Многоуровневое представление речевых сигналов
Общая структура систем распознавания речи
1.3. Аналитический обзор существующих методов
первичной обработки речевых сигналов.
1.4. Аналитическое обзор методов распознавания речи
1.5. Анализ нейросетевых подходов к решению задачи распознавания речи.
1.6. Дикторонезависимость и помехоустойчивость систем распознавания речи.
1.7. Аналитический обзор верхних уровней анализа систем распознавания речи.
1.8. Выводы.
Глава 2. Теоретические принципы обработки информации в многомерном пространстве на основе ненросетевон технологии с применением радиальнобазисных нейронов и иерархических структур ИС из динамических
ассоциативных запоминающих устройств ДАЗУ.
2.1. Радиальнобазисные нейронные сети.
2.1.1. Теоретические принципы функционирования радиальнобазисных нейронных сетей.
2.1.2. Модификация радиальнобазисной сети. Радиальнобазисная сеть встречного
распространения
2.1.2.1. Структурная схема и функциональные свойства РБНСВР.
2.1.2.2. Алгоритм обучения РБНС встречного распространения
2.1.2.3. Алгоритм распознавания в радиальнобазисных нейронных сетях встречного распространения
2.1.2.4. Отличительные особенности радиальнобазисной нейронной сети встречного распространения
2.1.2.5. Механизм помехоустойчивости радиальнобазисной нейронной сети встречного распространения
2.2. Структура из динамических ассоциативных запоминающих устройств
2.2.1. Нейроподобный элемент с временной
суммацией сигналов
2.2.2. Динамическое ассоциативное запоминающее устройство как модель многомерного пространства
2.2.3. Механизм ассоциативного доступа к
информации посредством ДАЗУ.
2.2.4. Модификация алгоритма ассоциативного
доступа в ДАЗУ
2.3. Выводы.
Глава 3. Применение радиалыюбазнсных нейронных сетей и
динамических ассоциативных запоминающих устройств в
задаче распознавания речи
3.1. Акустикофонетическое пространство
диктора.
3.1.1. Основные особенности речевых сигналов.
3.1.2. Построение акустикофонетического
пространства диктора.
3.1.3. Особенности представления речевого сигнала в
базисе акустикофонетического пространства.
3.1.4. Алгоритм снижения шумовой составляющей в векторе параметров на основе автоматического определения степени зашумлнности РС.
3.2.1. Применение радиальнобазисных нейронных сетей встречного распространения для настройки системы распознавания речи на нового диктора
3.2.2. Применение радиально базисной нейронной сети
для распознавания изолированно произносимых слов
3.3. Применение динамических ассоциативных запоминающих устройств для организации верхних
уровней системы распознавания речи
3.4. Выводы и основные результаты.
Глава 4. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов в задаче распознавания речи.
4.1. Первичная обработка речевых сигналов.
4.1.1. Детектор пауз.
4.1.2. Формирование вектора параметров речевого
сигнала.
4.2. Акустикофонетический уровень
4.2.1. Алгоритм построения акустикофонетического пространства.
4.2.2. Организация процесса распознавания
4.3. Экспериментальные исследования.
4.3.1. Настройка параметров системы
4.3.2. Проведение экспериментов
4.3.2.1. Распознавание методом динамического программирования.
4.3.2.2. Распознавание при помощи алгоритма локального поиска
4.3.2.3. Распознавание при помощи радиальнобазисной нейронной сети.
4.3.2.4. Распознавание аллофонов при помощи многослойного персептрона.
4.3.2.5. Радиальнобазисная нейронная сеть
встречного распространения
4.3.2.6. Настройка на нового диктора
4.3.2.7. Обнаружение помехи в речевом сигнале при помощи акустикофонетического пространства диктора.
4.4. Использование информации верхних уровней для сокращения состава оперативного словаря эталонов
4.5. Выводы
Выводы
Заключение
Литература


Как наиболее известных производителей систем распознавания речи следует выделить фирмы I и . Разработанные ими системы способны распознавать связную англоязычную речь, произносимую с паузами между словами, с подстройкой под произвольного диктора, и имеют словари объемом до и тысяч слов, соответственно , . Вместе с тем на фоне большого числа зарубежных коммерческих СРР отчетливо проявляется отсутствие на рынке русскоязычных систем распознавания речи. Несмотря на то, что именно отечественным разработкам принадлежит первенство в этой области , есть все основания утверждать, что их уровень существенно не изменился вплоть до настоящего времени. Это ясно выражается в неизвестности хотя бы одной реально работающей русскоязычной СРР со словарем более или менее приличного объема, не говоря уже о системах распознавания слитной речи. Системы диктовки текстов являются пока привлекательными для покупателей в силу новизны предоставляющихся для пользователя возможностей. Однако реальные системы диктовки должны, очевидно, обладать следующими тремя свойствами время набора текста с голоса, включая время на исправление ошибок, должно быть меньше времени набора того же текста с клавиатуры пользователь не должен уставать от набора текста голосом больше чем от набора текста клавиатурой стоимость системы диктовки должна быть ниже, чем преимущества от ввода информации голосом. Тестирование существующих систем показывает, что они не удовлетворяют ни одному из этих требований. Поэтому они пока являются не более чем дорогими мультимедиа игрушками. Стоит упомянуть, что системы диктовки текстов на западе нашли свое практическое применение в медицине. Это связано в первую очередь с тем, что область научных разработок для использования в медицине на Западе хорошо финансируется. А медицинские работники консервативны в части использования новой техники. Системы диктовки текстов применяются в медицине тогда, когда руки и глаза диктующего заняты, например, во время операции. В этом случае до использования речевых технологий либо вообще не практиковалось документирование происходящего, либо требовало привлечения дополнительных людских ресурсов . Анализируя современное состояние речевых технологий можно сделать вывод о том, что проблема распознавания речи остатся актуальной, при этом центр внимания переносится из области разработок алгоритмов направленных непосредственно на распознавание речевых сигналов в область обеспечения помехоустойчивости и дикторонезависимости систем распознавания речи. Изучение и анализ существующих подходов к решению задачи автоматического распознавания речи. Разработка структуры и определение параметров нейронной сети для задачи распознавания речевого сигнала. Разработка методов использования языковых знаний для сокращения состава оперативного словаря СРР. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов. Диссертационная работа состоит из введения, четырх глав, заключения и приложений. В главе 1 рассматриваются и обобщаются принципы и методы обработки и анализа РС. Анализируются особенности восприятия речи человеком на всех уровнях обработки. В первом разделе первой главы представлены основные особенности задачи распознавания речи. Выделены главные трудности, встающие на пути разработки систем распознавания речи. Во втором разделе представлена общая структурная схема системы распознавания речи с описанием функциональной нагрузки каждого модуля системы. Обоснована необходимость многоуровнего представления речевой информации. Актуализирована значимость верхних интеллектуальных уровней анализа и обработки речевой информации. В третьем разделе рассмотрены наиболее распространенные методы первичной обработки речевых сигналов. Проведен аналитический обзор методов, что позволило сформулировать вывод о целесообразности применения природосообразных бионичных методов предобработки РС, основанных на использовании физиологических особенностей восприятия речи человеком. В четвертом разделе приведн аналитический обзор методов распознавания речевых сигналов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.243, запросов: 244