+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Исследование и разработка методов и программных средств классификации текстовых документов

  • Автор:

    Гулин, Владимир Владимирович

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2013

  • Место защиты:

    Москва

  • Количество страниц:

    172 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

СОДЕРЖАНИЕ

Содержание
Введение
1. Задача классификации текстовых документов
1.1. Неформальная постановка задачи классификации текстовых документов
1.2. Задачи автоматической обработки текстов
1.2.1. Вопросы предварительной обработки текстов
1.2.1. Стемминг и лемматизация
1.2.3. Алгоритм лемматизации
1.2.4. Способы представления текстовой информации
1.3. Формализация задачи классификации текстов в терминах задачи машинного обучения с учителем
2. Классификация текстовых документов методами машинного обучения
2.1. Классификация текстовых документов известными методами
2.1.1. Применение байесовских методов классификации
2.1.2. Применение метрических методов классификации
2.1.3. Применение линейных методов классификации
2.1.4. Применение логических методов классификации
2.1.5. Применение алгоритмических композиций
2.2. Метод градиентного бустинга на «невнимательных»деревьях решений
2.3. Сравнительный анализ качества классификации алгоритмов
2.4. Анализ алгоритмической сложности и затрат памяти алгоритмов классификации
3. Классификация текстовых документов с учетом некоторых структурных особенностей
3.1. О конструировании признаков текста
3.2. Применение принципа конечной топологии распознавания топологических форм в задаче классификации текстов
3.3. Результаты численных экспериментов
4. Методы снижения размерности признакового описания
4.1. Мотивация для снижения размерности
СОДЕРЖАНИЕ
4.2. Лингвистический подход к снижению размерности признакового описания
4.3. Методы машинного обучения снижения размерности признакового
описания
4.3.1. Метод главных компонент
4.3.2. Критерий отбора признаков по принципу минимальной избыточности и максимальной релевантности
4.3.3. Метод главных признаков
4.4. Сравнительный анализ качества классификации для методов снижения размерности
4.5. Анализ алгоритмической сложности и затрат памяти алгоритмов снижения размерности
5. Создание и исследование программного обеспечения задач классификации текстовых документов
5.1. Описание архитектуры системы классификации текстовых документов
5.2. Реализация лемматизатора
5.2.1. Представления словаря в виде сжатого префиксного дерева
5.3. Реализация алгоритма GBOT
5.3.1. Мета-алгоритм градиентного бустипга
5.3.2. Представление «невнимательных»деревьев решений в виде решающих таблиц
5.3.3. Алгоритм конструирования «невнимательного»дерева решений
5.3.4. Эффективное вычисление ансамбля «невнимательных»решающих деревьев
5.4. Реализация модифицированного метода главных признаков
5.4.1. Вычисление корреляционной матрицы
5.4.2. Вычисление собственных значений и собственных векторов
5.4.3. Параллельная реализация самоорганизующейся карты
5.5. Новая технология программирования задач машинного обучения
Заключение
Список литературы
Приложение

Введение

Введение
Стремительное развитие сети Интернет привело к резкому росту количества электронных документов. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме и лишь 30% составляют другие виды данных. Экспоненциальное с течением времени увеличение количества неструктурированных данных привело по существу к коллапсу традиционной системы получения и распределения текстовой информации, превратили рутинную операцию поиска и анализа необходимых сведений в трудоемкий и малоэффективный процесс, вызывающий информационную перегрузку пользователей. В этой ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации, так как даже высококвалифицированные эксперты испытывают затруднения по организации поиска документов и распределении полученных текстовых данных по тематикам. Как показывает практика, результаты определения предметной области документа «вручную», т.с. путем экспертного отнесения к имеющейся рубрике, обычно не превышает 80% [23].
Классификация текстов - сортировка текстовых документов по заранее определенным категориям - один из способов структурирования данных [95]. Методы классификации текстовых документов лежат на стыке двух областей - информационного поиска и машинного обучения. Общие части двух этих подходов - способы представления документов и способы оценки качества классификации текстов, а различия состоят только в способах собственно поиска.
Несмотря на то, что проблемы классификации текстовых документов находятся в центре внимания целого ряда научных коллективов, по многим вопросам до сих пор не найдено удовлетворительных ответов. Точ-
Задача классификации текстовых документов

1.3. Формализация задачи классификации текстов в терминах задачи машинного обучения с учителем
Результатом этапа предварительной обработки коллекции текстовых документов является матрица «документ-термин». Таким образом, неформальная постановка задачи классификации текстов может быть модифицирована к следующему виду: пусть
И = (1.5)
- множество документов (Лф - количество документов в множестве И),
X = {х1,...,хлв} (1.6)
- множество признаковых описаний документов (матрица «документ-термин»)
С = {сь...,сус} (1.7)
- множество категорий {Ис ~ количество категорий),
1р : X х С —>-{0,1} - неизвестный предикат, соответствующий предикату (1.1) при замене документов ф их векторными описаниями Х{. При этом коллекция (1.2) заранее классифицированных документов представляется совокупностью пар, получающихся из элементов коллекции (1.2) заменой обозначений ф на Х{
П = {(х{, а)Хг е X, а е С, г = 1,.. .,77ц} С с1от<£>. (1.8)
Она разбивается на обучающую и тестовую совокупности:
= {{т^,с^)хг е X, с* € С, г — 1,..., 77} С скшцо, (1.9)
= {(ж-,с-)х[ € X, с' £ С, г = 1,... , IV'} С боггнр. (1.10)
Задача состоит в построении функции <р', являющейся аппроксимацией <р. Переход к такой форме постановки задачи классификации текстов

Рекомендуемые диссертации данного раздела

Время генерации: 0.115, запросов: 967