Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Адви Хекмет Самир
05.12.04
Кандидатская
2005
Москва
132 с. : ил.
Стоимость:
499 руб.
ГЛАВА 1. СУЩНОСТЬ И НЕОБХОДИМОСТЬ СЖАТИЯ ТЕКСТОВ
1.1. Важность и эффективность использования текстового сжатия
1.2. Предмет текстового сжатия
1.3. Область применения методов сжатия текстов на практике
1.4. Алгоритм Шеннона - Фано
1.5. Алгоритм Хаффмена
1.6. Адаптивное кодирование Хаффмена
1.7. Арифметическое кодирование
Выводы к главе
ГЛАВА 2. АНАЛИЗ СТАТИСТИКИ АРАБСКИХ И АНГЛИЙСКИХ ТЕКСТОВЫХ СООБЩЕНИЙ
2.1. Измерение информации в компьютерной системе
2.2. Энтропия — мера количества информации
2.3. Сравнительная характеристика степени сжатия текстов на арабском и английском языках
2.4. Статистический подход к сжатию текстов через моделирование и кодирование
2.5. Моделирование естественного языка
2.6. Анализ вероятности появления очередных символов в арабских текстах
2.7. Сравнительный анализ арабских и английских текстов
Выводы к главе
ГЛАВА 3. МЕТОДЫ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОБОБЩЕННОГО СТАТИСТИЧЕСКОГО РАСПРЕДЕЛЕНИЯ СИМВОЛОВ АЛФАВИТА
3.1. Методика кодирования по модели сообщения первого порядка
3.2. Методика декодирования
3.3. Сравнительная характеристика разных способов сжатия
3.4. Сравнение предлагаемого метода с другими способами сжатия по модели высокого порядка
3.5. Описание алгоритмов программ
3.5.1. Общая схема программы
3.5.2. Процедуры подсчета диграмм и триграмм
3.5.3. Процедуры построения деревьев для диграмм и триграмм
Выводы к главе
ГЛАВА 4. ВОПРОСЫ ПРАКТИЧЕСКОЙ РЕАЛИЗАЦИИ КОДЕКА С МОДЕЛЬЮ ИСТОЧНИКА СООБЩЕНИЯ ВЫСОКОГО ПОРЯДКА
4.1. структурная схема кодека
4.2. Выбор элементной базы
4.3. Микроконтроллер Р1С16Б877
4.4. Микросхема статистического ОЗУ 62256
4.5. Программатор Р1С-контроллеров
Выводы к главе 4.
ЗАКЛЮЧЕНИЕ
Список литературы
Приложение 1. Таблицы результатов сжатия примера арабского текста №3.5 монограммном, диграммном и триграммном образом и их кодовая последовательность
Приложение 2. Текст программы для кодирования и декодирования текстов по предлагаемому методу для моделей источника сообщения первого и второго порядков
Приложение 3. Описание микроконтроллера
Приложение 4. Описание дополнительных элементов
зависимости начертания отдельных букв от их положения в слове и др. Однако наибольшей проблемой является отсутствие в арабском языке собственных технических терминов. Обычно они заимствуются из английского и являются компиляцией и адаптацией терминов к возможностям арабского языка и шрифта. Поэтому для статистических исследований нами была отобрана “библиотека” из 100 текстов различного содержания: технического, художественного, научного, информационного и обзорного. Все тексты имеют объем который варьируется от 500 байт до 1 мегабайта и представляют широкий спектр стилей и авторов. Все выше указанные арабские тексты можно найти в Интернете [66, 67].
Статистика любого текста отображается распределением вероятности появления в нём различных последовательностей из п символов (и = 1, 2, 3, ...), называемых «-граммами. В качестве примера, на тексте 2.1, представлен фрагмент текста технического содержания на арабском языке, где затенёнными квадратиками выделены триграммы (п = 3) вида (сЗ' *) (звёздочкой * здесь отмечен пробел).
IЛ 1 иЛ|| 1>^К. зфД I ДЛэ ^ДимрГ~|^аА1
^ Л Л Л Л
щ Р Л 1*15
Сул Д^ЕЛ Д0Л Гл^ 1^Ьс Пай -и
О* 01^1» СШ С Л-А ^ <^с'
»и§ <■ ‘»Й*П
Текст 2.1. На арабском языке
Для оценки распределения символов в большой выборке, и их зависимости от предшествующих символов, нами подсчитывалось количество <7(0' ) появлений различных «-грамм для / -го вида:
а' =а[а‘2...а[ (2.3)
Название работы | Автор | Дата защиты |
---|---|---|
Развитие алгоритмических методов определения параметров радиосигналов в задачах испытаний для гибких технологий производства радиотехнических устройств и систем | Поздняков, Александр Дмитриевич | 2005 |
Адаптивные методы спектрального оценивания отражений радиоволн от метеообъектов | Лаврукевич, Владимир Владимирович | 2013 |
Разрешение неоднозначности фазовых измерений в квазидоплеровских автоматических радиопеленгаторах | Тетакаев, Умар Резванович | 2019 |