Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов

Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов

Автор: Толчеев, Владимир Олегович

Шифр специальности: 05.13.01

Научная степень: Докторская

Год защиты: 2009

Место защиты: Москва

Количество страниц: 355 с. ил.

Артикул: 4310759

Автор: Толчеев, Владимир Олегович

Стоимость: 250 руб.

Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов  Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ ПРОЦЕССА ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ И СИСТЕМАТИЗАЦИЯ МЕТОДОВ .
1.1. Библиографические текстовые документы
1.2. Области применения методов обработки и анализа
библиографических текеговых данных
1.3. Системный анализ процесса обработки текстовой информации .
7.3.7. Этапы системного анализа
1.3.2, Формулирование цели для систем обработки текстовой информации, определение критериев достижения цели и
ограничений
1.4. Построение модели процесса обработки текстовой
информации
1.4.1. Формализация понятия затрат
1.4.2. Способы оценки быстродействия и затрат .
1.5. Формирование выборок, модели представления текстовых документов, оценка точности классификации
1.5.1. Сбор данных и формирование выборок
1.5.2. Способы представления текстовой информации .
1.5.3. Оценка эффективности функционирования системы обработки текстовой информации
1.6. Предварительная обработка текстовых данных и систематизация процедур выявления информативных признаков
1.6.1. Предварительная обработка текстовых данных .
1.6.2. О проблеме выявления информативных признаков .
1.6.3. Критерии систематизации методов обработки и анализа текстовой информации
1.6.4. Систематизация процедур выявления информативных признаков
1.7. Систематизация методов классификации текстовой
информации
1.8. Обобщение результатов систематизаций методов выявления информативных признаков и методов классификации .
1.9. Анализ результатов систематизации и определение
новых направлений для исследований
Выводы но главе
ГЛАВА 2. ПОСТРОЕНИЕ ВЫСОКОТОЧНЫХ, БЫСТРОДЕЙСТВУЮЩИХ И МАЛОЗАТРАТНЫХ КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ ДЛЯ КЛАССИФИКАЦИИ БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ.
2.1. Основные характеристики КРП
2.1.1. Виды коллективов решающих правил
2.1.2. Сравнительный анализ стратегий принятия решений в КРП .
2.1.3. Расчет верхней точностной границы для коллективов
решающих правил
2.2. Систематизация направлений работ по синтезу КРП .
2.2.1. Способы отбора классификаторов для их объединения
в комитеты
2.2.2. Меры разнородности
2.2.3. Выявление взаимозависимости между точностью
и разнородностью классификаторов
2.3. Неоднородные КРП для решения задачи классификации текстовой информации
2,3Л. Обзор известных КРП, предназначенных для обработки и анализа текстовой информации
2.3.2. О понятии простой классификатор
2.3.3. Требования к простым классификаторам
2.3.4. Условия включения простого классификатора в КРП .
2.3.5. Требования к синтезируемым КРП
2.3.6. Процедура синтеза коллективов решающих правил на основе простых классификаторов
2.4. Оценка быстродействия методов классификации
2.4.1. Понятие элементарной операции .
2.4.2. Теоретический анализ быстродействия простых
классификаторов
2.5. Выявление простых классификаторов среди известных
процедур
Выводы но главе
ГЛАВА 3. РАЗРАБОТКА БЫСТРОДЕЙСТВУЮЩИХ МОДИФИКАЦИЙ
МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ .
3.1 Анализ метода ближайшего соседа
3.2. Обзор известных модификаций метода ближайшего соседа
3.3. Разработка нового модифицированного
метода ближайшего соседа ММБС
3.3.1. Алгоритм ММБС
3.3.2. Влияние структуры выборки на качество классификации
3.5.3. О различиях решающих правил, используемых в ММБС
и методе кБ С
3.3.4. Асимптотические свойства алгоритма ММБС .
3.3.5. Анализ быстродействия ММБС
3.4. Обобщенный метод ближайшего соседа
3.4.1. Уточненная формула взвешивания
3.4.2. Алгоритм ОМБС
3.5. Процедуры редукции обучающих выборок .
3.5.1. Обзор методов редукции
3.5.2. Разработка процедуры редукции обучающей выборки
3.6. Профильные методы для классификации текстовых документов . . .
3.6.1. Статистический и теоретикоинформационный подходы для выявления информативных признаков .
3.6.2. Улучшенный критерий взаимной информации.
3.6.3. Методы 2профилей, О профилей и М1профилсй
3.7. Обобщение результатов главы
Выводы по главе
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ИНДИВИДУАЛЬНЫХ МЕТОДОВ КЛАССИФИКАЦИИ И КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ, ПОСТРОЕННЫХ НА ОСНОВЕ ПРОСТЫХ КЛАССИФИКАТОРОВ .
4.1. Организация экспериментальных исследований .
4.1.1 Исходные предположения для проведения экспериментальных исследований
4.2. Формирование выборок для исследований, предварительная обработка текстовых документов и настройка параметров методов классификации
4.2.1. Источники текстовых данных для формирования выборок .
4.2.2. Общие требования к формированию выборок .
4.2.3. Методика формирования выборок
4.3. Исследование индивидуальных методов классификации .
4.3.1. Анализ основных внешних факторов, влияющих на ошибку классификации
4.3.2. Настройка параметров методов классификации .
4.4. Синтез неоднородных КРП на основе простых классификаторов
н их экспериментальное исследование
4.4.1. Применение процедуры синтеза КРП на основе простых классификаторов
4.4.2. Условия включения редуцированных методов в КРП
4.5. Сравнительный анализ коллективных и индивидуальных
решений по точности и быстродействию
4.5.1 Расчет среднего выигрыша в точности и быстродействии
для синтезированных КРП
4.5.2. Оценка точности коллективных и индивидуальных классификаторов на новых выборках
4.5.3. Проверка статистической гипотезы о равенстве
ошибок КРП1 и базового классификатора метод центроидов
4.6. Введение в КРП операции Отказ от классификации .
Выводы по главе
ГЛАВА 5. ОПЫТ ИСПОЛЬЗОВАНИЯ РАЗРАБОТАННЫХ ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ И АНАЛИЗА БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ
5.1. Разработка программных комплексов для автоматизированной обработки и анализа текстовой информации
5.1.1. Обоснование целесообразности разработки собственных программных комплексов
5.1.2. Структура и функциональные возможности разрабатываемых программных средств
5.2. Процедура выявления тематических журналов на порталах
издательств
5.2.7. Требования, предъявляемые к источникам информации,
и характеристики предметных областей
5.2.2. Специфика задачи выявления группы тематических журналов,
доступных в электронном виде
5.2.5. Стратегии выбора электронных журналов по заданным тематикам
5.2.4. Основные этапы выявления группы тематических журналов
на порталах издательств
5.2.5. Применение предложенной методики для отслеживания
научных публикаций в заданных предметных областях .
5.2.6. Обсуждение предложенной методики
5.3. Автоматизация процесса получения, обработки и анализа библиографических описаний журнальных статей с помощью
ПК СКАТ
5.3.1. Резул ьпгаты фш ыпрацииклассиф акации б ибл иограф и чес кого массива журнальных публикаций
5.3.2. Дополнительные возможности ГК СКА Т .
5.3.3. Построение и анализ семантического образа журнала Информационные технологии
5.4. Учебноисследовательский программный комплекс
для обработки и анализа текстовой информации
5.5. Общие замечания
Выводы по главе
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


Созданное ранее программноалгоритмическое обеспечение было успешно использовано для обработки и анализа базы данных научных публикаций в области химии, в рамках НИР, выполняемых совместно с Институтом проблем химической физики РАН акт о внедрении приводится в Приложении 6. Основные результаты данного этапа опубликованы в журналах, рекомендованных ВАК ,. В течение годов под руководством автора были выполнены и защищены три магистерские работы по тематике диссертации ,,. ГЛАВА 1. В зависимости от областей знаний документальная информация подразделяется на социальнополитическую, научную, финансовоэкономическую, юридическую, медицинскую, рекламную и т. В данной диссертации рассматривается специфика обработки текстов по научной проблематике научные статьи, отчеты по НИР, монографии, диссертации, патенты, доклады на конференциях, учебные пособия и т. Существует два основных способа представления текстовой информации в виде полнотекстового документа и в виде библиографического документа. Полнотекстовый документ состоит из названия, фамилии и имени автора, места его работы, краткого описания аннотации, ключевых слов, основного текста, который делится на главы абзацы, а также ссылок на лигературу . Библиографический реферативный документ включает название i 7, аннотацию А, ключевые слова К и некоторые другие поля фамилия и имя автора, место работы и т. Т,А,К в ряде случаев ключевые слова в реферате могут отсутствовать ,. Библиографическое описание представляет собой часть полнотекстового документа, опубликованного в качестве ознакомительного материала в реферативном журнале или сохраненного в специализированной базе данных. В целом, библиографический формат представления научной информации может быть расширен на сообщения электронной почты, краткую информацию телеграфных агентств, рекламу туристических фирм, описание товаров, продаваемых в электронных магазинах и т. В настоящее время крупнейшие базы данных, распространяемые на и доступные на коммерческих условиях через сеть Интернет, содержат огромное число библиографических описаний научных публикаций, патентов, результатов НИОКР, диссертаций БД X 4,4 млн. БД I 6,5 млн. БД 2 i млн. БД I 1 7,7 млн. Из общего числа БД примерно посвящено экономической проблематике, научнотехнической и патентной, юридической ,. Более половины существующих БД производится в США, причем практически вся информация представляется на английском языке. Наряду с полнотекстовыми и библиографическими документами для классификации иногда используются только названия документов, а также полные тексты или библиографические описания совместно со списками процитированных в публикациях документов ,,,. Таким образом, при выборе методов и средств для классификации необходимо принимать во внимание вид текстового документа. Пусть множество всех возможных задач классификации документальной информации. Упорядочивая данное множество, можно выделить систему вложенных подмножеств подзадач. V3 с с 5 с . В ряде публикации различия между полнотекстовыми и библиографическими документами обсуждаются по разным аспектам, в частности, отмечается, что библиографическое описание содержит значительно меньшее количество терминов и является более формализованным, что значительно облегчает разработку процедур для обработки и анализа данных Однако работа с библиографическими описаниями не только экономит время на просмотр публикаций и понимание их смысла, удобна и наглядна, но и коммерчески более выгодна, так как значительная часть библиографических документов распространяется в сети Интернет бесплатно аннотации журнальных статей, тезисы докладов на конференциях, рефераты отчетов по НИОКР. Проанализировав содержание библжчрафического описания, исследователь может более прицельно заказать те платные полнотекстовые версии, которые в наибольшей степени отвечают его научным интересам. Данная диссертация посвящена разработке новых процедур обработки и анализа именно библиографических текстовых документов, т. У2 из приведенной выше систематизации. В настоящее время алгоритмический и программный инструментарий, предназначенный для обработки документальной информации, эффективно используется для решения разнообразных практических задач.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.524, запросов: 244