Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях

Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях

Автор: Ронжин, Андрей Леонидович

Шифр специальности: 05.13.11

Научная степень: Докторская

Год защиты: 2010

Место защиты: Санкт-Петербург

Количество страниц: 330 с. ил.

Артикул: 4865213

Автор: Ронжин, Андрей Леонидович

Стоимость: 250 руб.

Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях  Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях 

СОДЕРЖАНИЕ
Введение.
Положения, выносимые на защиту
Глава 1. Организация и особенности человекомашинного взаимодействия в интерактивных многомодальных приложениях
1.1. Взаимодействие пользователя с окружающим интеллектуальным пространством.
1.2. Специфика многомодальных интерфейсов.
1.3. Анализ существующих интерактивных приложений с речевым и многомодальным интерфейсами.
1.4. Основные проблемы и способы обработки речевого сигнала.
1.5. Анализ методов дистанционной обработки русской речи
1.6. Выводы по 1 главе
Глава 2. Методы проектировании и тестирования многомодальных интерфейсов.
2.1. Основные характеристики многомодальных интерфейсов.
2.2. Особенности выбора многомодальных интерфейсов
2.3. Конфигурирование программноаппаратных ресурсов при проектировании интерактивных многомодальных приложений
2.4. Основные архитектуры многомодальных приложений
2.5. Методика поэтапного внедрения речевых и многомодальных интерфейсов
2.6. Выводы по 2 главе.
Глава 3. Методы многоканальной обработки речи и пространственной локализации диктора
3.1. Специфика дистанционной записи и распознавания речи.
3.2. Метод спектральнопространственной обработки звуковых сигналов .
3.3. Метод определения речевой активности в многоканальном звуковом потоке.
3.4. Выводы по 3 главе.
Глава 4. Модель представления словаря распознавателя на базе двухуровневого морфофонемного префиксного графа
4.1 Методика построения двухуровневого морфофонемного префиксного графа ДМПГ.
4.2 Сравнительный анализ моделей представления словаря.
4.3 Экспериментальная проверка ДМПГ и базовых моделей представления словаря распознавателя.
4.4 Модель декодирования речевого сигнала на базе ДМПГ.
4.5. Выводы по 4 главе.
Глава 5. Применение разработанных методов дистанционной обработки русской речи в многомодальных интерактивных приложениях
5.1. Программное обеспечение разработки многомодального интерфейса .
5.2. Многомодальный информационносправочный киоск.
5.3. Управление оборудованием интеллектуального зала.
5.4. Многоканальная система протоколирования совещания в интеллектуальном зале
5.5. Выводы по 5 главе.
Заключение
Литература


Со времени появления этой первой демонстрационной многомодальной системы, которая обрабатывала речь параллельно с указаниями на сенсорной панели, было создано множество многомодальных систем. Этот новый класс интерфейсов предназначен для распознавания естественно происходящих форм человеческого общения и поведения и объединяет, по крайней мере, одну технологию распознавания (речи, светового пера, зрения). Растущему интересу к разработке многомодальных интерфейсов способствует, в значительной степени, идея поддержки прозрачных, гибких и эффективных средств человеко-машинного взаимодействия [8]. От многомодальных интерфейсов ожидают простоты в их изучении и использовании, они более предпочтительны для пользователей во многих приложениях. Они потенциально адаптируемы к новым перспективным приложениям, могут быть использованы широким спектром людей, и лучше приспосабливаются к специфическим условиям функционирования, чем традиционные интерфейсы. Такие системы также потенциально более робастны и устойчивы в работе, чем одномодальные (например, только речевые) системы. Появление многомодальных интерфейсов, основанных на распознавании речи, взгляда, жестов и других выражений естественного поведения - это только начало прогресса к компьютерным интерфейсам, способным функционировать подобно человеческим органам восприятия мира. Такие интерфейсы в будущем смогут непрерывно интерпретировать поступающую информацию от различных визуальных, слуховых и тактильных каналов, которые используются человеком в повседневной деятельности. Одна и та же система сможет отслеживать и объединять информацию от различных датчиков пользовательского интерфейса и окружающего физического пространства для интеллектуальной адаптации к пользователю, текущей задаче и окружению. Будущие адаптивные многомодальные интерфейсы должны реализовывать максимальную функциональность, чтобы получить недостижимую в настоящее время надежность в работе для создания гибких, многофункциональных и персонализированных мобильных систем. Модальности в человеко-машинном взаимодействии подразделяются на входные, в которых информация поступает от человека к компьютеру, а выходные - когда все происходит наоборот и потоки информации идут от компьютера к человеку. Речевой ввод. Однако, речь менее удобна в графических задачах (навигация, рисование). Жестовый ввод. Жестовый ввод более предпочтителен для указания на графические объекты. Письменный ввод. Письменный ввод может быть наиболее эффективен для ввода численных данных, а также для заполнения форм и создания пометок. Сложность распознавания письменного текста варьируется в зависимости от задачи: распознавание отдельных символов, слов или целых фраз. Речь это совместный продукт нескольких действий: конфигурации голосовых связок, гортани, легких, движений губ и языка. При се генерации используются человеческие биомеханические команды для контролирования органов и движения мускулов. С речью связаны как аудио, так и визуальные каналы человека. Уши слышат звук, в то время как глаза видят движения, лица, языка и 6. Кроме того, тактильная информация также используется в речевой среде. Например, слепые люди используют свое чувство осязания для понимания написанной фразы по методу Брайля. Многие исследования показывают, что визуальные сигналы важны для лучшего понимания произносимой речи. Например, акцент в речи может быть усилен одним из следующих сигналов: частотой основного тона, поднятием бровей, движением головы, жестом или же комбинацией этих сигналов. Сигналы от визуальных и аудио каналов дополняют друг друга. Это помогает во многих сложных ситуациях при восприятии речи. Некоторые фонемы очень легко спутать на слух (например “м” и “н”), но легко отличить визуально (“м” произносится с закрытым ртом, а “н” с открытым). Глядя в лицо собеседнику, нам легче понимать его речь. Слабослышащие люди опираются, в основном, на визуальную информацию, а не на звуковую. Также и системы автоматического распознавания речи, использующие аудиовизуальную информацию работают лучше, чем системы, использующие только аудио информацию. Первые системы распознавания речи использовали только аудио информацию.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.209, запросов: 244