Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд

Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд

Автор: Гладышев, Константин Константинович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Санкт-Петербург

Количество страниц: 191 с. ил.

Артикул: 4883072

Автор: Гладышев, Константин Константинович

Стоимость: 250 руб.

Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд  Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд 

ВВЕДЕНИЕ
1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ
1.1 Формирование и воспршггие речи человеком
1.2 Классификация речевых единиц.
1.3 Обшая струюгура и классификации систем автоматического распознавания речи
1.4 Современные разработки в области речевых технологий .
1.4.1 I ViVi.
1.4.2 i
1.4.3 СанктПетербургский институт информатики и автоматизации Российской академии наук.
1.4.4 Сектор Цифровой Обработки и Распознавания Речевых Сигналов ВЦ РАН.
1.4.5 Центр речевых технологий
1.4.6 Фирма Стол Компьютерные Системы.
1.4.7 Кафедра Математической теории интеллектуальных систем МГУ.
1.4.8 Фирма Одитск
1.4.9 Кафедра Цифровой обработки сигналов СПБ ГУТ.
1.4. Белорусская компания Сакрамсит.
1.4. Объединенный институт проблем информатики НАН Беларуси.
1.4. Viv i i
1.4. II i
1.4. Программный комплекс ii
1.4. Набор программных библиотек НТК.
1.4. Набор программных библиотек ix.
1.5 Методы выделения признаков речевых сигналов в .
1.5.1 Спектральный и форматный анализ.
1.5.2 Вейвлет преобразования
1.5.3 Линейное предсказание.
1.6 Методы сравнения с эталонными единицами
1.6.1 Динамическое программирование.
1.6.2 Скрытые Марковские модели.
1.6.3 Нейронные сети
Выводы. . .
2. ВЫДЕЛЕНИЕ ПЕРВИЧНЫХ ПРИЗНАКОВ РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ АППАРАТА ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ
2.1 Струюгура разработанной системы распознавания речевых команд.
2.1.1 Общее описание модулей системы
2.1.2 Схема функционирования системы
2.2 Решение задачи линейною предсказания
2.2.1 История создания метола линейного предсказания и его преимущества.
2.2.2 Постановка задачи линейного предсказания
2.2.3 Вычисление коэффициентов линейного предсказателя
2.2.4 Выбор метода нахождения параметров модели.
2.2.5 Автокорреляционный алгор1ГТМ ЛевипсонаДарбина
2.2.6 Особенности вычисления коэффициентов линейного предсказания при возбуждении белым шумом.
2.2.7 Переход к линейным спектральным корням
2.3 Использование ЛСК в качестве информативных признаков для распознавания
2.4 Оценка возможности сокращения подпространства признаков векторов ЛСК.
Выводы
3. РАЗРАБОТКА МЕТОДИКИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ПО СЛОВАРЮ ОГРАНИЧЕННОЙ ДЛИНЫ.
3.1 Методика формирования словаря эталонов
3.2 Поиск по словарю с помощью выделения центров тяжести
3.2.1 роцсдура классификации входного по словарю эталонов
3.2.2 Распознавание отдельно стоящих фонем
3.3 Поиск по словарю методом динамического программирования
3.3.1 Метод динамического программирования
3.3.2 Распознавание отдельных слов
3.3.3 Распознавание целых командных слов на бате слогов.
3.3.4 Процедура нечеткого поиска строк но словарю.
3.3.5 Поиск слов в слитной речи и выделение пауз между словами
3.4 Критерий для оценки достоверности распознавания команд .
3.5 Выбор оптимальных параметров для расчета линейных спектральных корней
3.6 Пост роение иерархического словаря в соответ ствии с лексической моделью языка
3.7 Оптимизация поиска команд по словарю с применением метода кластеризации.
3.8 Оценка качества формирования словаря . .
Выводы . МММММ1МММММИ1МИ1НИМММММММИМ1НМММИНИ1ММНМИМММ1МММММИММ1
4. ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АНАЛИЗА И РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ
4.1 Функциональные возможности. .
4.2 Алгоритмическая модель системы .
4.2.1 Общее описание.
4.2.2 Первичная настройка и обучение системы.
4.2.3 Процедура распознавания входящей голосовой команды.
4.2.4 Функция расчета ЛСК на сигнале произвольной длительности .
4.2.5 Функция расчета ЛСК на окне сигнала
4.2.6 Функция расчета коэффициентов экстраполятора X.
4.2.7 Функция расчета одного корня уравнения по метолу Мыотопа
4.2.8 Функция расчета производной произвольного порядка XX.
4.2.9 Функция расчета всех корней уравнения по методу Ньютона
4.3 Описание пользовательского интерфейса
4.3.1 Общий вид системы
4.3.2 Константы
4.3.3 Отчет Траектории двух ЛСК в плоскости
4.3.4 Отчет Поиск эталона по сигналу
4.3.5 Отчет Поиск эталонов по сигналу
4.3.6 Отчет Поиск команды по словарю.
4.3.7 Отчет Поиск команды по словарю методом половинного деления.
4.3.8 Отчет Траектории трех ЛСК в пространстве.
4.3.9 Отчет Траектории сравнения сигналов
4.3. Отчет Просмотр значений ЛСК.
4.3. Отчет Сравнение центров эталонов и сигналов.
4.3. Отчет Влияние параметров ЛСК на поиск команды по словарю
4.3. Отчет Оценка разделения сигналов по МДС.
4.3. Отчет Сравнение каждого с каждым
4.3. Формат файла входного речевого сигнала
4.4 Техническая реализация, программные и аппаратные требования в
4.5 Исследование инвариантности системы к основным параметрам .
4.6 Сравнение ЛСК с другими методами получения первичных признаков 0 0 0 0 0 0
Выводы .
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ


О. Существуют различные варианты классификации аллофонов в зависимости от левого и правого контекста, позиции ударения в слове и т. Для русского языка выделяется от 0 до аллофонов . Аллофоны нашли успешное применение в задачах синтеза речи , 6. Однако в задачах распознавания речи вряд ли можно напрямую использовать наборы аллофонов в качестве эталонных баз. Эксперименты показывают, что слушатели затрудняются при расчленении речи на короткие сегменты, даже если на это специально направлять их усилия. Предполагалось, что лингвист прослушивая речевые сегменты может точно указать раниць фонем и определить какая именно фонема произносится. Однако на практике оказалось, чтобы выполнить данную задачу фонетисту зачастую необходимо услышать слово в целом или даже несколько рядом стоящих слов. Болес крупными речевыми единицами являются фонетические слоги. Фонетический слог это гласный звук или сочетание гласного с одним или несколькими согласными, произносимые одним выдыхательным толчком. В слове еголько слогов, сколько в нем гласных два гласных не могут находиться в пределах одного слога. Слоги бывают ударные и безударные. Известно, что раньше для тестирования качества передачи речевых сигналов по аналоговым каналам связи использовались артикуляционные таблицы ВКАС. Эти таблицы содержат фонетических единиц, являющихся всевозможными звукосочетаниями русской речи. Оценивается слоговая разборчивость передаваемой по каналу информации. Эти таблицы легли в основу ГОСТов по оценке качества передачи речевого сигнала 9 и оценке акустических характеристик помещений. Из слогов составляются целые слова, использующиеся для формирования осмысленных фраз. Слова или фразы могут использоваться в качестве эталонов в специализированных задачах по распознаванию команд или речи по ограниченному словарю. Из предыдущего параграфа следует, что восприятие устной речи это сложный процесс, сочетающий в себе множество уровней от акустического до семантического. Модель системы автоматического распознавания речи СРР должна основываться на бионическом подходе иметь иерархическую структуру и состоять из множества модулей уровней, тесно взаимосвязанных между собой. Эффективность работы СРР в целом зависит от качества реализации каждого уровня. Работа с сигналом на каждом уровне ведется на отрезке определенной длительности, т. При переходе к вышестоящим уровням система манипулирует все более крупными единицами, соответственно размер окна при переходе к высшему уровню увеличивается. На первом уровне системы должна выполняться оцифровка сигнала. С наличием современных технических средств это не представляет проблемы. При распознавании речи, передаваемой по узкополосным каналам связи, или в условиях повышенной зашумленности, необходимо применение процедуры фильтрации для более четкого выделения речевой составляющей из общего звукового сигнала. В современных проектах СРР для выделения информативных признаков используют спектральный, корреляционный, кепстральный анализ, вейвлетпреобразования, линейное предсказание речи. Для сравнения входного сигнала с эталонами могут использоваться следующие методы динамическое программирование, нейронные сети, скрытые марковские модели. В целях ускорения поиска по словарю эталонов можно производить его кластеризацию по определенным признакам. В качестве единиц словаря могут использоваться отдельные фонемы, слоги, слова или целые фразы. Семантическая коррекция осуществляется с использованием вероятностных моделей языка, на котором произносится речевое сообщение. Это может быть простейший орфоэпический словарь с набором слов и их транскрипций. А могут использоваться сложные иерархические цепочки аллофонного представления слов с учетом межфонемной вариативности. Также могут создаваться различные модели с описанием правил формирования слов или целых фраз разговорного языка. Назначение СРР зачастую определяет многие параметры системы. Так в задачах распознавания команд по ограниченному словарю целесообразно в качестве эталонов использовать целые слова. Однако в задачах распознавания слитной речи необходимо пользоваться более короткими участками речи.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.291, запросов: 244