Диссертация на тему "Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора", скачать бесплатно автореферат по специальности 05.13.18 - Математическое моделирование, численные методы и комплексы программ

Глава 1. Сравнительный анализ современных подходов и систем обработки потоков текстовых сообщений
1.1. Проблема обработки потоков текстовых сообщений
1.1.1. Современное состояние обработки естественного языка как направления искусственного интеллекта
1.1.2. Области применения алгоритмов обработки потоков
текстовых сообщений
1.1.3. Отличия методов обработки информационных потоков от традиционных методов интеллектуального анализа данных
1.2. Анализ подходов к обработке текстовых сообщений
1.2.1. Классический подход к обработке естественного языка
1.2.2. Базовые методы интеллектуального анализа текстов
1.2.3. Иерархические методы машинного обучения
1.2.4. Оценка эффективности методов классификации текстов и экспериментальные коллекции документов
1.2.5. Представление лингвистических данных
1.3. Подходы и алгоритмы обработки потоков данных
1.3.1. Анализ и прогнозирование временных рядов
1.3.2. Обработка информационных потоков
1.3.3. Интеллектуальный анализ последовательностей
1.4. Средства и системы обработки текстовой информации
1.4.1. Системы обработки естественного языка
1.4.2. Системы обработки потоковых данных
1.4.3. Функциональная архитектура систем интеллектуального
анализа текстов
1.5. Выводы
Глава 2. Разработка алгоритма классификации текстовых сообщений и обнаружения трендов в потоках текстовых сообщений
2.1. Математические модели предметной области

2.1.1. Математическая модель потока текстовых сообщений
2.1.2. Математическая модель системы обработки потока текстовых сообщений
2.2. Общая структура алгоритма иерархической обработки текстового сообщения в потоке
2.3. Предварительная обработка текста сообщения
2.4. Этап первичной классификации
2.4.1. Вероятностная классификация текстов
2.4.2. Разработка многозначного наивного байесовского классификатора
2.4.3. Выбор классификационных признаков сообщений
2.4.4. Оценка априорных вероятностей тематик
2.4.5. Фильтрация нерелевантных тематик
2.4.6. Новизна сообщения
2.5. Этап точной классификации
2.6. Этап определения новизны тематик
2.7. Применение пользовательских правил
2.8. Разработка метода оценки алгоритмов оперативной классификации потоков текстовых сообщений
2.9. Выводы
Глава 3. Создание программного комплекса обработки потоков текстовых сообщений
3.1. Определение требований к системе обработки потоков
текстовых сообщений
3.1.1. Определение требований к корпоративным системам
принятия решений
3.1.2. Определение требований к процессу разработки
3.1.3. Определение требований к подсистеме визуализации
3.1.4. Определение основных требований к функциональности системы обработки потока текстовых сообщений
3.2. Проектирование системы обработки потоков текстовых сообщений

3.2.1. Разработка архитектуры системы обработки потоков
текстовых сообщений
3.2.3. Структура данных предметной области
3.3. Программная реализация системы обработки потоков
текстовых сообщений
3.3.1. Выбор средств реализации системы обработки потоков текстовых сообщений
3.3.2. Описание программных компонентов системы обработки потоков текстовых сообщений
3.3.3. Структура компонентов обработки сообщений
3.3.4. Адаптеры для источников сообщений
3.4. Описание пользовательского интерфейса системы обработки потоков текстовых сообщений
3.5. Экспериментальная оценка эффективности алгоритма
обработки потоков текстовых сообщений
3.6. Выводы
Глава 4. Применение системы в практических задачах обработки
потоков
4.1. Обработка потока новостных сообщений
4.2. Обработка потока заявок на модификацию программных продуктов
4.3. Обработка потока обращений пользователей юридических форумов
4.4. Обработка потока статей в социальных медиа-ресурсах
4.5. Выводы
Заключение
Библиография
Приложение А. Эффективность классификации при применении
эвристической процедуры выбора признаков
Приложение Б. Эффективность классификации при применении
сбалансированной процедуры выбора признаков
Приложение В. Временные ряды тематик новостных сообщений

"Президент", с другой стороны, родительские для тематики "Президент" вершины "Экономика" и "Политика" не были (опять же, корректно) добавлены к результату, так как имели лишь косвенное отношение к сообщению.
2.3. Предварительная обработка текста сообщения
Цель предварительной обработки текста (text preprocessing) заключается в идентификации элементов текста, пригодных для последующей обработки. В контексте ОЕЯ предварительная обработка включает в себя три этапа:
• сортировка документов (document triage);
• сегментирование текста (text segmentation);
• нормализация слов.
Сортировка документов включает следующие иодэтапы [81]:
• идентификация кодировки символов;
• идентификация языка;
• секционирование текста (text sectioning).
Последний подэтап особенно важен с условиях работы с мультимедиаконтентом, и, в первую очередь, с веб-страницами, где необходимо отделять полезный текст от гипертекстовых метаданных, ссылок, графической информации, таблиц и рекламы.
Сегментирование текста включает следующие подэтапы:
• разметка, или сегментирование слов (word segmentation), или выделение
лексем (tokenization);
• сегментирование предложений (sentence segmentation), или макросинтаксический анализ [25, с. 58].
Разметка слов является одним из базовых этапов обработки текста. Для большинства распространённых искусственных и естественных языков он не представляет существенной проблемы благодаря присутствию чётко обозначенных разделителей — пробелов и знаков препинания.
Специальные методы выделения слов требуются в случаях:
• языков без разделителей (японского, китайского);

Название работы	Автор	Дата защиты
Теоретический и численный анализ в задачах маскировки материальных тел методом волнового обтекания	Лобанов Алексей Викторович	2016
Асимптотическое исследование некоторых нелинейных моделей математической физики	Несмеянов, Алексей Александрович	2007
Численное решение задач волноводного распространения поляризованного света в интегрально-оптическом волноводе	Диваков Дмитрий Валентинович	2017

Электронная библиотека диссертаций

Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора

Рекомендуемые диссертации данного раздела