+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Исследование и разработка методов сжатия текста на арабском языке

  • Автор:

    Адви Хекмет Самир

  • Шифр специальности:

    05.12.04

  • Научная степень:

    Кандидатская

  • Год защиты:

    2005

  • Место защиты:

    Москва

  • Количество страниц:

    132 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

ГЛАВА 1. СУЩНОСТЬ И НЕОБХОДИМОСТЬ СЖАТИЯ ТЕКСТОВ
1.1. Важность и эффективность использования текстового сжатия
1.2. Предмет текстового сжатия
1.3. Область применения методов сжатия текстов на практике
1.4. Алгоритм Шеннона - Фано
1.5. Алгоритм Хаффмена
1.6. Адаптивное кодирование Хаффмена
1.7. Арифметическое кодирование
Выводы к главе
ГЛАВА 2. АНАЛИЗ СТАТИСТИКИ АРАБСКИХ И АНГЛИЙСКИХ ТЕКСТОВЫХ СООБЩЕНИЙ
2.1. Измерение информации в компьютерной системе

2.2. Энтропия — мера количества информации
2.3. Сравнительная характеристика степени сжатия текстов на арабском и английском языках
2.4. Статистический подход к сжатию текстов через моделирование и кодирование
2.5. Моделирование естественного языка
2.6. Анализ вероятности появления очередных символов в арабских текстах
2.7. Сравнительный анализ арабских и английских текстов
Выводы к главе
ГЛАВА 3. МЕТОДЫ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОБОБЩЕННОГО СТАТИСТИЧЕСКОГО РАСПРЕДЕЛЕНИЯ СИМВОЛОВ АЛФАВИТА
3.1. Методика кодирования по модели сообщения первого порядка
3.2. Методика декодирования
3.3. Сравнительная характеристика разных способов сжатия
3.4. Сравнение предлагаемого метода с другими способами сжатия по модели высокого порядка
3.5. Описание алгоритмов программ
3.5.1. Общая схема программы
3.5.2. Процедуры подсчета диграмм и триграмм
3.5.3. Процедуры построения деревьев для диграмм и триграмм
Выводы к главе
ГЛАВА 4. ВОПРОСЫ ПРАКТИЧЕСКОЙ РЕАЛИЗАЦИИ КОДЕКА С МОДЕЛЬЮ ИСТОЧНИКА СООБЩЕНИЯ ВЫСОКОГО ПОРЯДКА
4.1. структурная схема кодека
4.2. Выбор элементной базы
4.3. Микроконтроллер Р1С16Б877
4.4. Микросхема статистического ОЗУ 62256
4.5. Программатор Р1С-контроллеров
Выводы к главе 4.

ЗАКЛЮЧЕНИЕ
Список литературы
Приложение 1. Таблицы результатов сжатия примера арабского текста №3.5 монограммном, диграммном и триграммном образом и их кодовая последовательность
Приложение 2. Текст программы для кодирования и декодирования текстов по предлагаемому методу для моделей источника сообщения первого и второго порядков
Приложение 3. Описание микроконтроллера
Приложение 4. Описание дополнительных элементов

зависимости начертания отдельных букв от их положения в слове и др. Однако наибольшей проблемой является отсутствие в арабском языке собственных технических терминов. Обычно они заимствуются из английского и являются компиляцией и адаптацией терминов к возможностям арабского языка и шрифта. Поэтому для статистических исследований нами была отобрана “библиотека” из 100 текстов различного содержания: технического, художественного, научного, информационного и обзорного. Все тексты имеют объем который варьируется от 500 байт до 1 мегабайта и представляют широкий спектр стилей и авторов. Все выше указанные арабские тексты можно найти в Интернете [66, 67].
Статистика любого текста отображается распределением вероятности появления в нём различных последовательностей из п символов (и = 1, 2, 3, ...), называемых «-граммами. В качестве примера, на тексте 2.1, представлен фрагмент текста технического содержания на арабском языке, где затенёнными квадратиками выделены триграммы (п = 3) вида (сЗ' *) (звёздочкой * здесь отмечен пробел).
IЛ 1 иЛ|| 1>^К. зфД I ДЛэ ^ДимрГ~|^аА1
^ Л Л Л Л
щ Р Л 1*15
Сул Д^ЕЛ Д0Л Гл^ 1^Ьс Пай -и
О* 01^1» СШ С Л-А ^ <^с'
»и§ <■ ‘»Й*П
Текст 2.1. На арабском языке
Для оценки распределения символов в большой выборке, и их зависимости от предшествующих символов, нами подсчитывалось количество <7(0' ) появлений различных «-грамм для / -го вида:
а' =а[а‘2...а[ (2.3)

Рекомендуемые диссертации данного раздела

Время генерации: 0.170, запросов: 967