Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Бородкин, Артем Александрович
05.13.01
Кандидатская
2012
Москва
162 с. : ил.
Стоимость:
499 руб.
Введение
ГЛАВА 1. ПРОЦЕСС И МЕТОДЫ ОБРАБОТКИ ДОКУМЕНТАЛЬНОЙ
ИНФОРМАЦИИ
1 Л. Основные термины и определения
1.2. Этапы процесса обработки и анализа текстовой информации
1.3. Сбор данных и формирование выборок
1.4. Начальная и содержательная обработка текстовых документов
1.5. Разведочный анализ текстовых данных
1.6. Способы оценки точности классификации
1.7. Непараметрические методы классификации
1.7.1. Метод ближайшего соседа
1.7.2. Метод -ближайших соседей
1.7.3. Взвешенный метод -ближайших соседей
1.7.4. Метод потенциальных функций
1.8. Способы устранения общих недостатков непараметрических методов
1.9. Целевой показатель редукции
Выводы
ГЛАВА 2. РАЗРАБОТКА МЕТОДА РЕДУКЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ
2.1. Редуцированные методы
2.1.1. Метод нахождения прототипов
2.1.2. Инкрементные и декрементные методы редукции
2.2. Сопоставление методов редукции
2.3. Критерии определения “внутренних” документов
2.4. Алгоритм выбора радиуса гиперсферы
2.5. Модифицированный метод прототипов для объединения “внутренних” документов
2.6. Метод редукции обучающих выборок
2.7. Оценка вычислительной сложности и быстродействия непараметрических методов, использующих редуцированные выборки
2.8. Формирование выборок для исследований и экспериментальная настройка параметров процедуры редукции исходя из требований заданного ЦП
2 8.1. Формирование обучающих, тестовых и экзаменационных выборок
2.8.2. Настройка параметров метода редукции
Выводы
ГЛАВА 3. РАЗРАБОТКА И ПРИМЕНЕНИЕ МЕТОДИКИ ВЫБОРА ПРОЦЕДУР (И ПАРАМЕТРОВ) ОБРАБОТКИ И АНАЛИЗА ТЕКСТОВЫХ
ДАННЫХ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ
3.1. Применение непараметрических критериев в задачах обработки и анализа текстовых документов
3.2. Основные непараметрические критерии для анализа связанных выборок
3.2.1. Критерий Фридмана
3.2.2. Критерий Вилкоксона
3.3. Методика выбора процедур (и параметров) обработки и анализа текстовых данных на основе непараметрических критериев
3.4. Проведение исследований процедур обработки и анализа текстовых данных и применение разработанной методики на основе непараметрических критериев
3.4.1. Результаты исследований на англоязычных библиографических выборках
3.4.2. Результаты исследований на русскоязычных библиографических выборках
Выводы
ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ ДЛЯ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ И АНАЛИЗА
БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ
4.1 Сравнительный анализ известных разработок Text Mining
4.2 Структура и функциональные возможности учебно-исследовательского программного комплекса (УИПК)
4.3. Разработка комплекса лабораторных работ по курсу «Интеллектуальные информационные системы» с использованием УИПК
4.4. Применение УИПК для решения прикладных задач
Выводы
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
Приложение 1 Лабораторные работы
Приложение 2 Настройка параметров для выборок из русскоязычной
цифровой библиотеки eLibrary
Приложение 3 Акты о внедрении
Введение
В последние два десятилетия существенно увеличились объемы накопленных текстовых документов и возросли потребности практики в эффективных программно-алгоритмических и методических средствах их анализа (процедуры Text Mining). Автоматизированное разнесение текстовой информации по заданным классам (задача классификации) является одним из наиболее востребованных на практике направлений Text Mining и позволяет упорядочивать большие документальные массивы, снижая информационную нагрузку на пользователя [1,2,3].
Наиболее быстро возрастают объемы научно-технической информации, которые практически удваиваются в течение 2-3 лет [1]. При обработке и анализе научно-технических документов чаще всего решается задача классификации. Она, в частности, возникает при отслеживании публикаций в научных журналах, выпускаемых ведущими мировыми издательствами. Выявление из больших документальных массивов значимых статей, которые представляют практический интерес для пользователей (инженеров, преподавателей, научных сотрудников), является актуальной задачей. Такие статьи содержат важные сведения для повышения эффективности НИОКР, разработки новых учебных курсов, подготовки диссертаций и монографий и т.п. Автоматизированное упорядочивание массивов научной информации по классам позволяет существенно сократить затраты на рутинные процедуры обработки данных и, в конечном итоге, способствует увеличению результативности проводимых исследований.
Чаще всего в крупных хранилищах текстовых данных в свободном (бесплатном) доступе имеются документы, представленные в виде библиографических описаний. Библиографические описания состоят из названия, аннотации, ключевых слов, фамилий авторов и другой вспомогательной информации. Доступ к полнотекстовым версиям обычно реализуется на коммерческой основе. В связи с этим целесообразно проводить автоматизированный мониторинг и классификацию научных
K{d) = ( + adpyx (1.15)
В формулах (1.14) и (1.15) предполагается, что а > 0, (3 >0.
Таким образом, согласно методу потенциальных функций новый документ XN+l относится к g-му классу, если этому классу соответствует наибольший наведенный потенциал:
ф£ (XN+i ) = max{®! (1 yv+i )
К числу настраиваемых параметров в МПФ относятся выбор вида потенциальной функции и ее параметров, а также метрика расстояния.
1.8. Способы устранения общих недостатков непараметрических методов
При анализе МБС были указаны недостатки, которые являются
общими для всех НМ и оказывают существенное влияние на их характеристики. К ним относятся:
1. Чувствительность к выбору количества информативных терминов и способу их взвешивания.
2. Зависимость от вида меры близости.
3. Неустойчивость по отношению к наличию в обучающей выборке нерелевантных документов (выбросов).
4. Невысокое быстродействие.
При выборе количества информативных терминов, способа их взвешивания, меры близости, а также в других случаях, когда из нескольких альтернатив необходимо определить ту, что обеспечивает наилучшие значения точности классификации, исследователь сталкивается с необходимостью осуществить корректный и объективный выбор. Такой корректный выбор наилучших процедур (параметров) целесообразно осуществлять на основе статистических непараметрических критериев. Для этого необходимо разработать комплексную методику на основе непараметрических критериев и с ее помощью обосновать выбор процедур и
Название работы | Автор | Дата защиты |
---|---|---|
Системный анализ, методы и модели построения интеллектуальных систем принятия решений при управлении сложными организационно-техническими комплексами | Долинина Ольга Николаевна | 2018 |
Система управления проектными исследованиями радиотехнических устройств | Затылкин, Александр Валентинович | 2012 |
Метод и алгоритмы обработки изображений серных отпечатков в системе оценки качества непрерывнолитой заготовки | Посохов Иван Александрович | 2017 |