+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Модификация, разработка и реализация методов классификации новостных текстов

  • Автор:

    Шаграев, Алексей Галимович

  • Шифр специальности:

    05.13.17

  • Научная степень:

    Кандидатская

  • Год защиты:

    2014

  • Место защиты:

    Москва

  • Количество страниц:

    108 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Содержание

Введение
1. Задача текстовой классификации как задача обучения по прецедентам
1.1 Оценка качества методов классификации
1.1.1 Метрики точности и полноты
1.1.2 Метрика Accuracy
1.1.3 Метрика AUC
1.1.4 Комбинированные метрики
1.2 Методы решения задачи текстовой классификации
1.2.1 Наивный байесовский метод
1.2.2 Метод ближайших соседей
1.2.3 Оценка качества
2. Задача классификации текстов
2.1 Линейные методы классификации
2.1.1 Наивный байесовский метод и его модификации
2.1.2 Логистическая регрессия
2.2 Модельные деревья решений
2.2.1 Одномерная линейная регрессия
2.2.2 Инкрементальное обновление
2.2.3 Многомерная линейная регрессия
2.3 Алгоритмические композиции
2.3.1 Алгоритмические композиции в задаче регрессии
2.3.2 Алгоритмические композиции в задаче бинарной
клас с ификации
2.4 Матричное разложение как метод выделения признаков
2.5 Выводы
3. Экспериментальное исследование рассмотренных методов
3.1 Методика экспериментального исследования
3.1.1 Метод скользящего контроля

3.1.2 Стратификация
3.2 Исследуемые наборы данных
3.2.1 Коллекция ЯеШегз-251%
3.2.2 Коллекция ИС
3.3 Результаты численных экспериментов
3.3.1 Линейные методы классификации
3.3.2 Линейные методы восстановления регрессии
3.3.3 Модельные деревья решений в задаче восстановления регрессии
3.3.4 Алгоритмические композиции на основе модельных деревьев в задачах классификации
3.4 Выводы
Заключение
4. Список сокращений и условных обозначений
Литература
5. Приложение. Тексты программ для решения задач линейной регрессии

ВВЕДЕНИЕ
Классификация текстов - одна из важных задач информационного поиска [26], заключающаяся в отнесении документа к одной или нескольким категориям (классам) из некоторого заранее определенного набора на основании анализа содержания этого документа.
Разумеется, простейшим и исторически первым методом классификации документов является ручная классификация, примеры которой можно видеть в виде рубрик в СМИ, категорий в библиотеках, разделении художественных текстов на жанры, разделении научных текстов по тематикам и т.д.
Впрочем, ручная классификация весьма ограничена в способности быстро обрабатывать большие массивы текстов, характерные для многих приложений автоматических методов классификации текстов. Среди этих приложений стоит отметить следующие:
• фильтрация спама;
• контекстная реклама;
• автоматическое реферирование наборов текстов;
• категоризация (рубрикация) в агрегирующих системах;
• обеспечение разнообразия поисковой выдачи и другие.
Методы машинного обучения широко используются для задач текстовой классификации. Это обусловлено несколькими причинами, среди которых стоит отметить высокую скорость классификации, а также снижение роли человека в процессе получения решения. Действительно, использование методов машинного обучения позволяет

повышении полноты классификации на тестовом множестве, что особенно актуально в ситуации недостаточного размера обучающей выборки. Присутствие стандартного функционала потерь при этом не позволяет потерять в точности. Выбором величины коэффициента Я можно регулировать соотношение приобретенной полноты и потерянной точности.
Фактически рассмотренный метод является методом трансдуктивного обучения [20,51].
2.2 Модельные деревья решений
Дерево решений [26,29,30,39,43,54] — это бинарное дерево, предназначенное для получения предсказаний на основании набора признаков, описывающих предъявляемый объект. В каждом узле дерева осуществляется проверка того или иного условия; на основании результата этой проверки выполнение алгоритма перемещается в левое или в правое поддерево рассматриваемого узла. Процедура повторяется в каждом посещенном узле до тех пор, пока очередной узел не окажется листом. В этом случае осуществляется предсказание на основании модели, размещенной в листе.
Дерево решений можно рассматривать и в качестве линейной модели. В самом деле, фактически дерево решений осуществляет разбиение признакового пространства на непересекающиеся подпространства. Каждое из таких подпространств является множеством объектом, попадающих в соответствующий лист дерева. Пусть X — Хх и Х2 14 ... и Хп - разбиение, порождаемое деревом решений, а а1,а2, — ,ап-Х -»У - модели, соотнесенные соответствующим листьям. Тогда предсказание дерева можно записать в виде • [х & Х^]).

Рекомендуемые диссертации данного раздела

Время генерации: 0.119, запросов: 967