Диссертация на тему "Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний", скачать бесплатно автореферат по специальности 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Содержание
Введение
Положения, выносимые на защиту
Глава 1. Обзор подходов к решению проблем сопровождения распределенных мероприятий
1.1 Анализ основных проблем разработки систем сопровождения распределенных мероприятий
1.2 Анализ существующих программных платформ по удаленной обработке мультимедийных сигналов
1.3 Методы предварительной обработки аудиосигналов
1.4 Методы автоматической диаризации речи дикторов
1.5 Выводы по главе
Глава 2. Методы и модели обработки мультимедийных данных при сопровождении мероприятий
2.1 Информационная модель сопровождения распределенных мероприятий
2.2 Метод формирования мультимедийного контента
2.3 Метод автоматической диаризации речи дикторов
2.4 Выводы по главе
Глава 3. Технические и программные средства сопровождения распределенных мероприятий
3.1 Модель управления техническими средствами поддержки проведения мероприятий в интеллектуальном зале
3.2 Архитектура системы сопровождения распределенных мероприятий
3.3 База данных системы сопровождения распределенных мероприятий
3.4 Выводы по главе
Глава 4. Комплекс программных средств распределенной обработки речевых данных
4.1 Архитектура комплекса программных средств Г1АРАД-Р
4.2 Программные модули комплекса ПАРАД-Р
4.3 Описание исследовательского стенда экспериментального образца ПАРАД-Р
4.4 Выводы по главе
Заключение
Литература
Приложение А. Копии актов внедрения результатов диссертационной работы
Введение
Актуальность темы диссертации. Организация совместной работы и обсуждений между территориально распределенными участниками с использованием мультимедийных Интернет-приложений и мобильных устройств становится реальной альтернативой традиционным совещаниям. Интернет-приложения для проведения телеконференций и дистанционного обучения Е-теебгщ, Е-1есШге становятся всё более популярными при проведении распределенных мероприятий, вебинаров. Такие системы позволяют сэкономить на транспортных расходах, использовать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации.
Современные системы связи и совместной работы не позволяют полностью автоматизировать процесс информационного сопровождения совещаний, поэтому часть работы по обслуживанию удаленных участников выполняется операторами-людьми. Кроме того, при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий обязательной процедурой является протоколирование выступлений участников. Однако анализ и расшифровка аудиозаписей совещаний требует привлечения специалистов-стенографистов и занимает длительное время. Методы анализа речи и идентификации дикторов могут использоваться для автоматизации процесса выделения реплик участников совещания. Одним из перспективных способов увеличения эффективности систем анализа речи является применение параметров, полученных на основе многоканального и многомодального анализа поведения участников в зале совещаний.
Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников. Поэтому актуальность разработки методов и
программного обеспечения аудиовизуальной обработки сигналов при сопровождении распределенных совещаний, отличающихся применением средств автоматического анализа и оценки информационной значимости передаваемого контента и обеспечивающих передачу только актуального аудиовизуального потока данных для удаленного участника и уменьшение потребляемых ресурсов мобильным устройством, не вызывает сомнений.
Цель работы и задачи исследования. Основной целыо диссертационной работы является разработка методов и программно-аппаратных средств автоматической обработки аудиовизуальных сигналов, повышающих возможности удаленного участника при участии в дискуссиях во время распределенных мероприятий, а также снижении затрат на подготовку мультимедийных отчетных материалов. Для достижения указанной цели в работе поставлены и решены следующие задачи:
1. Анализ современных методов и программных систем сопровождения распределенных совещаний.
2. Разработка информационной модели сопровождения участников совещаний.
3. Разработка метода формирования мультимедийного контента для вывода на устройство удаленного участника мероприятия.
4. Разработка метода диаризации речи дикторов для протоколирования выступлений участников совещаний.
5. Разработка архитектуры системы сопровождения участников распределенных совещаний и генерации отчетных материалов.
6. Разработка комплекса программных средств распределенной обработки мультимедийных данных для сопровождения распределенных мероприятий.
Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории множеств, теории компьютерных сетей, распознавания образов, теории объектно-ориентированного проектирования и программирования.

предсказания (PLP) [52]. Такие признаки, как длительность фонем, скорость речи, определение пауз и просодические характеристики описаны в работе [125]. В работе [122] используются новые спектральные признаки, основанные на ERB (equivalent rectangular bandwidth), которые сравниваются с традиционными MFCC признаками. В ходе проведенных экспериментов было выяснено, что применение новых признаков привело к снижению ошибки диаризации на 15,4%.
Несмотря на то, что вышеупомянутые методы параметрического представления сигнала дают хорошие показатели в системах диаризации, они обычно не выявляют информацию, определяющую различия между дикторами, и не фильтруют ее от фоновых шумов. В работе [60] указано, что использование долговременных признаков, т.е. признаков, получаемых при анализе достаточно длительных отрезков речевого сигнала, помогает выявить индивидуальные особенности голоса диктора, а также его манеру разговора, которые не могут быть получены при использовании кратковременного анализа, например, кепстрального. В [40, 97] показано, что комбинация традиционных кратковременных признаков (MFCC и т.д.) с просодическими и долговременными признаками существенно улучшает работу системы протоколирования. Исследование 70 различных долговременных признаков и последующее объединение лучших с кратковременными признаками позволило повысить точность работы системы диаризации. Наиболее значимыми признаками оказались: частота основного тона, энергия, форманты, отношение гармоник к шуму и долговременное среднее значение спектра.
В многомодальных системах диаризации, использующих видеокамеры для слежения за выступающими, оценивается положение головы, изменение геометрии лица, его освещенности и другие параметры, позволяющие выявить текущего говорящего. Контактные методы оценки деятельности выступающих, например, по рукописному вводу на планшетном компьютере или сенсорной доске также исследуются в ряде работ [61, 114].

Название работы	Автор	Дата защиты
Модели и методы построения многоязычного облака лингвистических открытых связанных данных	Кириллович, Александр Витальевич	2019
Моделирование и валидация коммуникационных протоколов, представленных на языках Estelle и SDL, с помощью сетей Петри высокого уровня	Чурина, Татьяна Геннадьевна	2000
Разработка методов организации процессов обработки текстов с использованием иерархического структурирования данных	Джонджорова, Христина Атанасова	1985

Электронная библиотека диссертаций

Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний

Рекомендуемые диссертации данного раздела