+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Параллельная система тематической текстовой классификации на основе метода опорных векторов

  • Автор:

    Пескишева, Татьяна Анатольевна

  • Шифр специальности:

    05.13.17

  • Научная степень:

    Кандидатская

  • Год защиты:

    2012

  • Место защиты:

    Москва

  • Количество страниц:

    173 с.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

ГЛАВА 1. МЕТОД ОПОРНЫХ ВЕКТОРОВ В ЗАДАЧЕ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
1.1. Постановка задачи текстовой классификации
1.2. Выделение ключевых признаков
1.3. Классификаторы и методы обучения
1.4. Метод опорных векторов (Support Vector Machines, SVM)
1.4.1. Идея метода
1.4.2. Ядра и подбор параметров ядер
1.4.3. Алгоритмы обучения SVM
1.4.4. Методы многоклассовой классификации
1.4.5. Распараллеливание алгоритмов обучения SVM
1.5. Системы и модули текстовой классификации
1.6. Оценка эффективности систем текстовой классификации
ВЫВОДЫ ПО ГЛАВЕ
ГЛАВА 2. РАЗРАБОТКА ПАРАЛЛЕЛЬНЫХ МЕТОДОВ И АЛГОРИТМОВ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
2.1. Параллельный алгоритм обучения бинарного классификатора
2.2. Параллельный алгоритм формирования векторной модели текста
2.3. Параллельный алгоритм обучения многоклассового классификатора
2.4. Параллельный алгоритм настройки параметров классификатора
2.5. Параллельный метод текстовой классификации для иерархической структуры вычислительной системы
ВЫВОДЫ ПО ГЛАВЕ
ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ ТЕКСТОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ПАРАЛЛЕЛЬНЫХ МЕТОДОВ
3.1. Структура параллельной системы текстовой классификации

3.2. Режимы работы параллельной системы текстовой классификации
3.3. Рекомендации по работе с системой
3.4. Оценка эффективности
ВЫВОДЫ ПО ГЛАВЕ
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ СИСТЕМЫ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
4.1. Особенности программной реализации
4.2. Характеристики вычислительного кластера
4.3. Описание текстовых коллекций
4.4. Эксперименты на коллекции 11еи1ег8-21578
4.5. Эксперименты на коллекции ЯСУ1
ВЫВОДЫ ПО ГЛАВЕ
ЗАКЛЮЧЕНИЕ
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
СПИСОК СОКРАЩЕНИЙ
ПРИЛОЖЕНИЯ
Приложение 1. Схемы систем и модулей текстовой рубрикации
Приложение 2. Характеристика систем и модулей текстовой рубрикации

Приложение 3. Наличие блоков обобщенной структуры системы текстовой рубрикации в существующих системах и модулях (по данным доступных источников)
С каждым днем увеличивается объем текстовых данных, хранящихся в электронном виде. Развитие глобальных компьютерных сетей и появление полнотекстовых баз данных (электронных библиотек, баз авторефератов, научных статей) привело к экспоненциальному росту объема текстовой информации. Для организации эффективной работы с этой информацией используются различные системы обработки текстов, предназначенные для решения широкого круга задач, таких как поиск, аннотирование, машинный перевод, извлечение фактов и др.
Важным этапом обработки текстовой информации является тематическая классификация (рубрикация), цель которой состоит в отнесении текстовых документов к одной или нескольким заранее заданным категориям (рубрикам) по определенным признакам. Текстовая классификация применяется в таких областях, как фильтрация спама, сортировка новостей, проверка авторства, составление Интернет-каталогов, автоматическое аннотирование, информационный поиск и др.
В настоящее время существует два базовых подхода к тематической классификации текстов: подход на основе машинного обучения (machine learning) и подход на основе обработки знаний (knowledge engineering) [29]. При использовании подхода на основе машинного обучения классифицирующее правило определяется в результате автоматического анализа выборки (коллекции) заранее отрубрицированных документов. Для составления правила классификации в методах, основанных на знаниях, требуется предварительный анализ рубрик и документов и определение признаков рубрик экспертами вручную. В связи с высокой трудоемкостью использования методов, основанных на знаниях, все большее распространение получают методы машинного обучения.
Решение задачи тематической классификации позволит автоматизировать процесс обработки текстовой информации, сделать его менее тру-

Рис. 1.6. Способы классификации систем и модулей текстовой рубрикации
1) построение модели представления текста (ДИСКАНТ, Г алактика-Zoom);
2) составление иерархической структуры рубрик - рубрикатора (ДИСКАНТ, NeurOK);
3) составление правил классификации (IBM InfoSphere, Oracle In-terMedia Text).
Автоматические системы и модули выполняют первый и третий из указанных этапов без участия эксперта. При этом обычно уже имеется готовый рубрикатор, хотя и он может строиться автоматически, как в системе NeurOK (модуль Semantic Miner).
По области применения системы и модули рубрикации можно поделить на универсальные и специализированные. Специализированные ориентированы на какую-то определенную область применения (например, социология), тогда как универсальные системы могут быть использованы в любых областях.

Рекомендуемые диссертации данного раздела

Время генерации: 0.104, запросов: 967