+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Разработка метода повышения быстродействия непараметрических классификаторов библиографических текстовых документов

  • Автор:

    Бородкин, Артем Александрович

  • Шифр специальности:

    05.13.01

  • Научная степень:

    Кандидатская

  • Год защиты:

    2012

  • Место защиты:

    Москва

  • Количество страниц:

    162 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы


Введение
ГЛАВА 1. ПРОЦЕСС И МЕТОДЫ ОБРАБОТКИ ДОКУМЕНТАЛЬНОЙ
ИНФОРМАЦИИ
1 Л. Основные термины и определения
1.2. Этапы процесса обработки и анализа текстовой информации
1.3. Сбор данных и формирование выборок
1.4. Начальная и содержательная обработка текстовых документов
1.5. Разведочный анализ текстовых данных
1.6. Способы оценки точности классификации
1.7. Непараметрические методы классификации
1.7.1. Метод ближайшего соседа
1.7.2. Метод -ближайших соседей
1.7.3. Взвешенный метод -ближайших соседей
1.7.4. Метод потенциальных функций
1.8. Способы устранения общих недостатков непараметрических методов
1.9. Целевой показатель редукции
Выводы
ГЛАВА 2. РАЗРАБОТКА МЕТОДА РЕДУКЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ
2.1. Редуцированные методы
2.1.1. Метод нахождения прототипов
2.1.2. Инкрементные и декрементные методы редукции
2.2. Сопоставление методов редукции
2.3. Критерии определения “внутренних” документов
2.4. Алгоритм выбора радиуса гиперсферы
2.5. Модифицированный метод прототипов для объединения “внутренних” документов
2.6. Метод редукции обучающих выборок
2.7. Оценка вычислительной сложности и быстродействия непараметрических методов, использующих редуцированные выборки
2.8. Формирование выборок для исследований и экспериментальная настройка параметров процедуры редукции исходя из требований заданного ЦП
2 8.1. Формирование обучающих, тестовых и экзаменационных выборок
2.8.2. Настройка параметров метода редукции
Выводы
ГЛАВА 3. РАЗРАБОТКА И ПРИМЕНЕНИЕ МЕТОДИКИ ВЫБОРА ПРОЦЕДУР (И ПАРАМЕТРОВ) ОБРАБОТКИ И АНАЛИЗА ТЕКСТОВЫХ
ДАННЫХ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ
3.1. Применение непараметрических критериев в задачах обработки и анализа текстовых документов

3.2. Основные непараметрические критерии для анализа связанных выборок
3.2.1. Критерий Фридмана
3.2.2. Критерий Вилкоксона
3.3. Методика выбора процедур (и параметров) обработки и анализа текстовых данных на основе непараметрических критериев
3.4. Проведение исследований процедур обработки и анализа текстовых данных и применение разработанной методики на основе непараметрических критериев
3.4.1. Результаты исследований на англоязычных библиографических выборках
3.4.2. Результаты исследований на русскоязычных библиографических выборках
Выводы
ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ ДЛЯ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ И АНАЛИЗА
БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ
4.1 Сравнительный анализ известных разработок Text Mining
4.2 Структура и функциональные возможности учебно-исследовательского программного комплекса (УИПК)
4.3. Разработка комплекса лабораторных работ по курсу «Интеллектуальные информационные системы» с использованием УИПК

4.4. Применение УИПК для решения прикладных задач
Выводы
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
Приложение 1 Лабораторные работы
Приложение 2 Настройка параметров для выборок из русскоязычной
цифровой библиотеки eLibrary
Приложение 3 Акты о внедрении

Введение
В последние два десятилетия существенно увеличились объемы накопленных текстовых документов и возросли потребности практики в эффективных программно-алгоритмических и методических средствах их анализа (процедуры Text Mining). Автоматизированное разнесение текстовой информации по заданным классам (задача классификации) является одним из наиболее востребованных на практике направлений Text Mining и позволяет упорядочивать большие документальные массивы, снижая информационную нагрузку на пользователя [1,2,3].
Наиболее быстро возрастают объемы научно-технической информации, которые практически удваиваются в течение 2-3 лет [1]. При обработке и анализе научно-технических документов чаще всего решается задача классификации. Она, в частности, возникает при отслеживании публикаций в научных журналах, выпускаемых ведущими мировыми издательствами. Выявление из больших документальных массивов значимых статей, которые представляют практический интерес для пользователей (инженеров, преподавателей, научных сотрудников), является актуальной задачей. Такие статьи содержат важные сведения для повышения эффективности НИОКР, разработки новых учебных курсов, подготовки диссертаций и монографий и т.п. Автоматизированное упорядочивание массивов научной информации по классам позволяет существенно сократить затраты на рутинные процедуры обработки данных и, в конечном итоге, способствует увеличению результативности проводимых исследований.
Чаще всего в крупных хранилищах текстовых данных в свободном (бесплатном) доступе имеются документы, представленные в виде библиографических описаний. Библиографические описания состоят из названия, аннотации, ключевых слов, фамилий авторов и другой вспомогательной информации. Доступ к полнотекстовым версиям обычно реализуется на коммерческой основе. В связи с этим целесообразно проводить автоматизированный мониторинг и классификацию научных

K{d) = ( + adpyx (1.15)
В формулах (1.14) и (1.15) предполагается, что а > 0, (3 >0.
Таким образом, согласно методу потенциальных функций новый документ XN+l относится к g-му классу, если этому классу соответствует наибольший наведенный потенциал:
ф£ (XN+i ) = max{®! (1 yv+i )
К числу настраиваемых параметров в МПФ относятся выбор вида потенциальной функции и ее параметров, а также метрика расстояния.
1.8. Способы устранения общих недостатков непараметрических методов
При анализе МБС были указаны недостатки, которые являются
общими для всех НМ и оказывают существенное влияние на их характеристики. К ним относятся:
1. Чувствительность к выбору количества информативных терминов и способу их взвешивания.
2. Зависимость от вида меры близости.
3. Неустойчивость по отношению к наличию в обучающей выборке нерелевантных документов (выбросов).
4. Невысокое быстродействие.
При выборе количества информативных терминов, способа их взвешивания, меры близости, а также в других случаях, когда из нескольких альтернатив необходимо определить ту, что обеспечивает наилучшие значения точности классификации, исследователь сталкивается с необходимостью осуществить корректный и объективный выбор. Такой корректный выбор наилучших процедур (параметров) целесообразно осуществлять на основе статистических непараметрических критериев. Для этого необходимо разработать комплексную методику на основе непараметрических критериев и с ее помощью обосновать выбор процедур и

Рекомендуемые диссертации данного раздела

Время генерации: 0.095, запросов: 967