Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Пескишева, Татьяна Анатольевна
05.13.17
Кандидатская
2012
Москва
173 с.
Стоимость:
499 руб.
ГЛАВА 1. МЕТОД ОПОРНЫХ ВЕКТОРОВ В ЗАДАЧЕ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
1.1. Постановка задачи текстовой классификации
1.2. Выделение ключевых признаков
1.3. Классификаторы и методы обучения
1.4. Метод опорных векторов (Support Vector Machines, SVM)
1.4.1. Идея метода
1.4.2. Ядра и подбор параметров ядер
1.4.3. Алгоритмы обучения SVM
1.4.4. Методы многоклассовой классификации
1.4.5. Распараллеливание алгоритмов обучения SVM
1.5. Системы и модули текстовой классификации
1.6. Оценка эффективности систем текстовой классификации
ВЫВОДЫ ПО ГЛАВЕ
ГЛАВА 2. РАЗРАБОТКА ПАРАЛЛЕЛЬНЫХ МЕТОДОВ И АЛГОРИТМОВ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
2.1. Параллельный алгоритм обучения бинарного классификатора
2.2. Параллельный алгоритм формирования векторной модели текста
2.3. Параллельный алгоритм обучения многоклассового классификатора
2.4. Параллельный алгоритм настройки параметров классификатора
2.5. Параллельный метод текстовой классификации для иерархической структуры вычислительной системы
ВЫВОДЫ ПО ГЛАВЕ
ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ ТЕКСТОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ПАРАЛЛЕЛЬНЫХ МЕТОДОВ
3.1. Структура параллельной системы текстовой классификации
3.2. Режимы работы параллельной системы текстовой классификации
3.3. Рекомендации по работе с системой
3.4. Оценка эффективности
ВЫВОДЫ ПО ГЛАВЕ
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ СИСТЕМЫ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
4.1. Особенности программной реализации
4.2. Характеристики вычислительного кластера
4.3. Описание текстовых коллекций
4.4. Эксперименты на коллекции 11еи1ег8-21578
4.5. Эксперименты на коллекции ЯСУ1
ВЫВОДЫ ПО ГЛАВЕ
ЗАКЛЮЧЕНИЕ
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
СПИСОК СОКРАЩЕНИЙ
ПРИЛОЖЕНИЯ
Приложение 1. Схемы систем и модулей текстовой рубрикации
Приложение 2. Характеристика систем и модулей текстовой рубрикации
Приложение 3. Наличие блоков обобщенной структуры системы текстовой рубрикации в существующих системах и модулях (по данным доступных источников)
С каждым днем увеличивается объем текстовых данных, хранящихся в электронном виде. Развитие глобальных компьютерных сетей и появление полнотекстовых баз данных (электронных библиотек, баз авторефератов, научных статей) привело к экспоненциальному росту объема текстовой информации. Для организации эффективной работы с этой информацией используются различные системы обработки текстов, предназначенные для решения широкого круга задач, таких как поиск, аннотирование, машинный перевод, извлечение фактов и др.
Важным этапом обработки текстовой информации является тематическая классификация (рубрикация), цель которой состоит в отнесении текстовых документов к одной или нескольким заранее заданным категориям (рубрикам) по определенным признакам. Текстовая классификация применяется в таких областях, как фильтрация спама, сортировка новостей, проверка авторства, составление Интернет-каталогов, автоматическое аннотирование, информационный поиск и др.
В настоящее время существует два базовых подхода к тематической классификации текстов: подход на основе машинного обучения (machine learning) и подход на основе обработки знаний (knowledge engineering) [29]. При использовании подхода на основе машинного обучения классифицирующее правило определяется в результате автоматического анализа выборки (коллекции) заранее отрубрицированных документов. Для составления правила классификации в методах, основанных на знаниях, требуется предварительный анализ рубрик и документов и определение признаков рубрик экспертами вручную. В связи с высокой трудоемкостью использования методов, основанных на знаниях, все большее распространение получают методы машинного обучения.
Решение задачи тематической классификации позволит автоматизировать процесс обработки текстовой информации, сделать его менее тру-
Рис. 1.6. Способы классификации систем и модулей текстовой рубрикации
1) построение модели представления текста (ДИСКАНТ, Г алактика-Zoom);
2) составление иерархической структуры рубрик - рубрикатора (ДИСКАНТ, NeurOK);
3) составление правил классификации (IBM InfoSphere, Oracle In-terMedia Text).
Автоматические системы и модули выполняют первый и третий из указанных этапов без участия эксперта. При этом обычно уже имеется готовый рубрикатор, хотя и он может строиться автоматически, как в системе NeurOK (модуль Semantic Miner).
По области применения системы и модули рубрикации можно поделить на универсальные и специализированные. Специализированные ориентированы на какую-то определенную область применения (например, социология), тогда как универсальные системы могут быть использованы в любых областях.
Название работы | Автор | Дата защиты |
---|---|---|
Методы анализа вероятностей блокировок в мультисервисных сетях с многоадресными соединениями | Щукина, Ольга Николаевна | 2011 |
Исследование и разработка комбинированных нейросетевых технологий для повышения эффективности безопасной маршрутизации информации в сетях связи | Лавренков, Юрий Николаевич | 2014 |
Применение методов агрегации экспертов и регрессии на основе гауссовских процессов для построения метамоделей | Приходько, Павел Викторович | 2013 |