Разработка и исследование метода классификации библиографической текстовой информации

Разработка и исследование метода классификации библиографической текстовой информации

Автор: Некрасов, Иван Валериевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Москва

Количество страниц: 152 с. ил.

Артикул: 2830632

Автор: Некрасов, Иван Валериевич

Стоимость: 250 руб.

Разработка и исследование метода классификации библиографической текстовой информации  Разработка и исследование метода классификации библиографической текстовой информации 

1.1 Интеллектуальный анализ текстовой информации
1.2 Характерные особенности обработки текстовой информации
1.3 Модели представления документов в задачах текстовой классификации.
1.4 Полнотекстовые и библиографические реферативные научнотехнические документы.
1.5 Процесс классификации текстовой шформации
1.5.1 Предварительная обработка текстовых документов.
1.5.2 Математические модели текстовых документов.
1.5.3 Индексация текстовых документов
1.5.4 Сокращение размерности в задачах классификации текстовых документов
1.5.5 Оценка качества классификации
1.6 Обзор методов классификации текстовой информации
1.7 Сравнительный анализ методов классификации текстовой информации.
ГЛАВА 2. РАЗРАБОТКА МОДИФИЦИРОВАННОГО МЕТОДА БЛИЖАЙШЕГО СОСЕДА
2.1 База данных библиографических документов Сомрехоех
2.1.1 Методика формирования обучающей и тестовой выборок с помощью БД Сотреп1ех .
2.1.2 Формирование выборок для исследований
У 2.2 Метод лгближайших соседей.
2.3 Модификации метода ближайших соседей
2.3.1 Редуцированные методы ближайшего соседа.
2.3.2 Модифицированные методы ближайшего соседа.
2.4 Разработка модифицированного метода ближайшего сосем
2.4.1 Алгоритм модифицированного метода ближайшего соседа.
2.4.2 Исследование влияния количества и месторасположения опорных точек на ошибку и время классификации ММБС.
2.5 Сравнительный анализ ММБС и МБС Ма1С.
ГЛАВА 3. ГЛАВА 3. ИССЛЕДОВАНИЕ МОДИФИЦИРОВАННОГО МЕТОДА
I БЛИЖАЙШЕГО СОСЕДА в
3.1 Факторы, влияющие на ошибку и время классификации.
3.1.1 Выделение информативных признаков.
3.1.2 Исследование влияния длины обучающей выборки на ошибку и время классификации.
1 3.1.3 Исследование влияния меры определения близости между документами па
ошибку и время классификации
3.1.4 Исследование влияния количества классов в выборке на ошибку и время классификации.
3.2 Сравнение ошибки классификации различными метомми.
ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ АВТОМАТИЧЕСКОГО ОТСЛЕЖИВАНИЯ ПУБЛИКАЦИЙ НА ЮТЕШЧЕТСАЙТАХ НАУЧНОТЕХНИЧЕСКИХ ЖУРНАЛОВ.
4.1 Разработка программного комплекса классификации библиографических текстовых документов СКАТ Система Классификации и Анализа Текста
4.1.1 Функциональные возможности разработанного ПО
4.2 Методика использования ПК СКАТ для классификации библиографических сгатей из научнотехнических журналов.
4.2.1 Формирование обучающей выборки и обучение классификатора.
4.2.2 Отбор журналов, публикующих статьи по интересующим пользователя предметным областям
4.2.3 Пополнение базы данных и автоматическая классификация статей.
4.2.4 Просмотр статей
4.3 Использование К СКАТ для классификации библиографических документов из научнотехнических журналов.
4.4 Использование ПК СКАТ в учебном процессе.
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


В третьей главе представлены исследования влияния внешних факторов на ошибку и время классификации модифицированного метода ближайшего соседа, оценивается ошибка классификации библиографических документов несколькими методами классификации методом центроидов, наивным байесовским методом, методом ближайших соседей и модифицированным методом ближайшего соседа. Основное внимание уделено исследованию характеристик разработанного модифицированного метода ближайшего соседа на различных выборках из библиографических документов. Проведен обзор и сравнительный анализ наиболее распространенных и эффективных методов классификации текстовых документов. Показано, что в настоящее время не существует методов, одновременно обеспечивающих малое время классификации, малую ошибку классификации, высокую скорость обучения, простоту реализации, легкую интерпретацию результатов на различных выборках текстовых документов. Разработан новый метод классификации библиографических текстовых документов модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки. Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом методом ближайшего соседа. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации по сравнению с прототипом ошибка разработанного метода остается сопоставимой с ошибками известных методов. Разработан ПК СКАТ Система классификации и анализа текста, реализующий предложенный в диссертации метод классификации. Для обоснования выбора наиболее эффективного метода для решения конкретной задачи в ПК СКАТ реализованы также другие методы метод ближайших соседей, метод центроидов и наивный байесовский метод. Разработанный ПК позволяет получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с 1тегпе1сайтов электронных журналов и ориентирован на широкий круг пользователей, не имеющих специальных знаний в области теории классификации и программирования. Некрасов И. В., Толчеев В. О. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов. Вестник МЭИ. М. МЭИ, , стр. Некрасов И. В., Толчеев В. О. Разработка модели представления библиографических документов в задачах текстовой классификации. Научная сессия МИФИ . М. МИФИ, , стр. Некрасов И. В., Толчеев В. О. Сравнительный анализ методов классификации текстовых документов. М. МИФИ, , стр. Некрасов И. В., Толчеев В. О. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ. М. МЭИ, , стр. Некрасов И. В., Толчеев В. О. Разработка алгоритма модифицированного метода ближайшего соседа. Международная конференция Информационные средства и технологии том 2. М. Станкин, , стр. Некрасов И. В., Толчеев В. О. О выборе опорных точек в модифицированном методе ближайшего соседа. Международная конференция Информационные средства и технологии том 2. М. Станкин, , стр. Некрасов И. В., Толчеев В. О. Разработка программного комплекса для классификации текстовых документов. Международная конференция Информационные средства и технологии том 2. М. Станкин, , стр. Некрасов И. В., Толчеев В. О. Информационнопоисковая система для обработки научнотехнической информации. Информационные средства и технологии том 1. М. Станкин, , стр. Некрасов И. В., Толчеев В. О. Методика модификации запросов в информационнопоисковой системе I. Международная конференция Информационные средства и технологии том 1. М. Станкин, , стр. Ю.Машков Д. В., Некрасов И. В., Толчеев В. О. Построение модели предметной области идентификация динамических систем на основе анализа электронных информационных ресурсов. Научная сессия МИФИ . М. МИФИ, , стр. И.Некрасов И. В., Толчеев В. О. Экспериментальные исследования методов классификации текстовых документов. Научная сессия МИФИ . М. МИФИ, , стр.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.227, запросов: 244