Преобразование речи в текст. Фонемный подход

Преобразование речи в текст. Фонемный подход

Автор: Медведев, Максим Сергеевич

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2007

Место защиты: Красноярск

Количество страниц: 111 с. ил.

Артикул: 3316656

Автор: Медведев, Максим Сергеевич

Стоимость: 250 руб.

Преобразование речи в текст. Фонемный подход  Преобразование речи в текст. Фонемный подход 

Оглавление
Введение.
Актуальность проблемы
Цель работы
Методы исследования.
Научная новизна.
Практическая ценность.
Апробация работы
Публикации
Структура работы
1 Анализ способов построения систем распознавания речи
1.1 Сравнительные характеристики систем распознавания речи.
1.2 Особенности русской речи
1.3 Выбор единицы распознавания.
1.4 Подходы к построению систем распознавания речи
1.4.1 Функциональный подход.
1.4.2 Нейросетевой подход.
2 Система преобразования речи в текст.
2.1 Акустическая составляющая системы
2.1.1 Ввод речевого сигнала
2.1.2 Предварительная обработка сигнала
2.1.3 Вычисление признаков речевого сигнала
2.2 Лингвистическая составляющая системы.
2.2.1 Алгоритм формирования фонетической формы слова на основе вероятностей сочетаний фонем русского языка.
2.2.2 Алгоритм формирования грамматической формы слова
2.3 Вероятностнонейросетевая система Речьтекст.
3 Исследование моделей фонем
3.1 Классификация фонем
3.2 Модель фонемы на основе гомоморфного анализа.
3.2.1 Модель образования речи
3.2.2 Кепстральный анализ речевого сигнала.
3.3 Модель фонемы на основе вейвлетпреобразования.
3.3.1 Вейвлетпреобразование речевого сигнала
3.3.2 Выбор вейвлетбазиса.
3.3.3 Параметры модели фонемы на основе вейвлетпреобразования 4 Разработка программного обеспечения.
4.1 Среда разработки МааЬ 7
4.2 Особенности программной реализации системы речьтекст
4.3 Компоненты системы речьтекст
4.4 Создание базы данных фонем русского языка
4.5 Оценка качества распознавания речи.
Заключение
Список литературы


Разработанное программное обеспечение позволяет автоматизировать процесс ввода текстовой информации в ЭВМ, проводить экспериментальные исследования в области распознавания речи. База данных фонем русского языка может использоваться для разработки и экспериментальной оценки качества работы речевых приложений. Апробация работы. Основные положения диссертации были представлены на семинаре ВЦ СОРАН г. Красноярск (), Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, ), Международной конференции ’’Системный анализ и информационные технологии” (Переславль-Залесский, ), Международной конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» (Украина, Крым, Ялта-Гурзуф, ), IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых "Молодежь и современные информационные технологии" г. Томск, . Демонстрационные работы внедрены в учебный процесс. Сведения о внедрении. Система преобразования речи в текст внедрена в учебный процесс в Красноярском Государственном Техническом Университете (акт о внедрении №/ от ). Публикации. По результатам работы опубликованы статьи в Вестнике КрасГУ ’8, Вестнике СибГАУ 1() , две статьи, депонированные в ВИНИТИ (рег. В, -В), а также 7 докладов на Международных, Всероссийских и межвузовских конференциях. Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и библиографического списка использованных источников. Она содержит страниц основного текста, рисунков и таблиц, расположенных в тексте диссертации. Список литературы включает 0 наименований. В настоящее время рынок систем распознавания речи представлен множеством приложений. Dragon NaturallySpeaking Preferred фирмы Dragon Systems []. Коммерческая система намного превосходит остальные в распознавании текста делового письма, обеспечивает высокую безошибочность распознавания и простоту использования. Для каждого пользователя создается голосовая модель, что существенно влияет на качество распознавания. Система позволяет легко переключается между диктовкой, правкой и форматированием. Характеристики: качество распознавания составляет %, словарь содержит ООО слов. Отсутствует поддержка русского языка. Программа распознавания русской речи - "Комбат” московской фирмы "Вайт Груп" []. Является надстройкой над пакетом Dragon NaturallySpeaking. Позволяет вводить русские тексты и управлять Рабочим столом русских версий Windows 3. NT. Характеристики: недостаточное качество распознавания при диктовке - % (если говорить идеально, с расстановкой). Объем словаря составляег ООО словоформ с возможностью расширения до ООО. Единица распознавания - слово. ASR, Automatic Speech recognition от группы компаний Spirit []. PIN-кода для входа в систему, работа с голосовым меню и т. Характеристики: высокое качество распознавания гарантировано только при небольшом словаре - до команд и составляет %. В режиме распознавания слитной речи словарь составляет слов/цифр. Система рассчитана на любой язык. Для распознавания используются скрытые Марковские модели, акустические параметры основаны на мел-частотных кепстральных коэффициентах. Voice - система распознавания голоса от компании Autonomy []. Данное приложение позволяет пользователю управлять компьютером с помощью голоса так же легко, как это делается с помощью клавиатуры или мыши. Другими словами, голосовые данные ничем не должны отличаться от текстовых, или любых других, воспринимаемых компьютером. Voice была разработана на базе технологии распознавания голоса фирмы SoftSound. Характеристики: отсутствует поддержка русского языка. Пакет MedSpeak/Radiology от компании IBM [] представляет собой интенсивно использующую центральный процессор систему клиент-сервер, работающую под управлением Windows NT. Ее способность распознавания почти в реальном времени и высокая точность, показанная во время испытаний, предвещают этой системе хорошее будущее. Объем словаря - ООО слов.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.235, запросов: 244