Разработка и исследование методов построения атрибутного тематического классификатора документов

Разработка и исследование методов построения атрибутного тематического классификатора документов

Автор: Ха Ти Чунг

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2009

Место защиты: Таганрог

Количество страниц: 138 с. ил.

Артикул: 4365536

Автор: Ха Ти Чунг

Стоимость: 250 руб.

Разработка и исследование методов построения атрибутного тематического классификатора документов  Разработка и исследование методов построения атрибутного тематического классификатора документов 

ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ ПРОБЛЕМ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ, ПОСТАНОВКА ЗАДАЧИ СОЗДАНИЯ АТРИБУТНОЙ КЛАССИФИКАЦИИ.
1.1. Основные понятия и терминология.
1.2. Выбор математического инструментария для представления текстов
1.3. Обзор классических методов текстовой классификации и
кластеризации
1.4. Анализ основных проблем в области тематической классификации
1.5. Выводы
ГЛАВА 2. РАЗРАБОТКА МОДЕЛЕЙ ОПИСАНИЕ ДОКУМЕНТОВ И ТЕМАТИК
2.1. Выбор атрибутов классификации.
2.2. Разработка модели описания документов.
2.3. Разработка модели описания тематик
2.4. Общий подход к построению классификатора
2.5. Выводы
ГЛАВА 3. РАЗРАБОТКА МОДЕЛИ КЛАССИФИЦИРУЮЩЕЙ ФУНКЦИИ И МЕТОДОВ ЕЕ НАСТРОЙКИ.
3.1. Модель классифицирующей функции.
3.2. Анализ порогов классификации и требований к структуре правильной обучающей выборки
3.3. Представление частичных функций близости
3.4. Формирование описания документа.
3.5. Формирование атрибутных множеств тематик классификатора
3.6. Настройка классифицирующей функции путем подбора коэффициентов доверия
3.7. Построение классифицирующей функции с использованием понятия лингвистической переменной
3.8. Выводы.
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АТРИБУТНОЙ КЛАССИФИКАЦИИ.
4.1. Структура экспериментальной модели.
4.2. Метод обработки функциональных областей и нормализация текста
4.3. Извлечение термов из документа.
4.4. Экспериментальное исследование атрибутной классификации.
4.5. Выводы
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР 6 Исследование и разработка гибридных логикоматематических и нечетколингвистичсских моделей задач искусственного интеллекта, информационного поиска и распознавания образов и учебном процессе по дисциплине Организация электронных архивов данных магистерской программы Интеллектуальные системы по направлению Информатика и вычислительная техника факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета. Предлагаемая модель тематического атрибутного классификатора была программно реализована и внедрена в научноисследовательский процесс лаборатории ЕППНС. Атрибутные модели описания документа и тематики. Классифицирующая функция на основе частичных функций близости по типу текст текст, текст экспертное знание, экспертное знаниеэкспертное знание и описательные атрибутыописательныс атрибуты. Представление классифицирующей функции в виде лингвистической переменной и правила нечеткого логического вывода для классификации. Апробация работы. VI Всероссийской научной конференции молодых ученых, аспирантов и студентов Информационные технологии, системы анализ и управление Таганрог, ТТИ ЮФУ, декабря г. Публикации автора по теме диссертации. ВАК. Структура и объм работы. Диссертация включает введение, четыре главы, заключение, список литературы и три приложения. Объем диссертации 6 страниц, список литературы содержит наименований. Е1ЛЭ1С факультета автоматики и вычислительной техники Таганрогского технического института Южного федерального университета. ГЛАВА 1. В главе приведены основные понятия и терминология, проведен анализ известных подходов в области классификации и сформулирована проблема диссертационного исследования. Документ. Под документом будем понимать связанные общим смыслом тексты, оформленные в целостном виде. Так, например, документами являются книги, статьи, отчеты, Vстраницы и т. Документ наряду с основной текстовой частью содержит дополнительные области, которые являются обязательными для данного типа документов. Например, в случае представления документа в виде научной монографии дополнительными областями являются название моно1рафии, оглавление, список литературы, аннотация, выходные данные издательства, УДК, ВЫ и пр. Тематика. При организации информационных хранилищ, документы должны быть систематизированы по определенным правилам, или, иначе говоря, проклассифицированы. Как правило, такая систематизация осуществляется по тематическим признакам или тематикам. В определенную тематику собираются множество близких по смыслам документов, которые также часто называются коллекциями документов. Классификатор. Компьютерная программа, выполняющая распределение документов по тематическим признакам. Обучающая выборка. Совокупность документов, составленная экспертами, предназначенная для обучения классификатора. Классифицирующая функция. Функция, реализуемая классификатором и устанавливающая близость документа тематике. Терм. Неделимая единица информационной обработки классификатором. В зависимости от видов обработки термами могут быть понятия предметной области, термины, даты, ссылки, аббревиатуры и пр. Важность терма вес терма. Некоторое числовое значение, которое задает количественную оценку важности терма документу или тематике. Модель описания документа. Совокупность характеристик документа, которая составляется для работы классификатора. Модельописания тематики. Совокупность характеристик тематики, которая составляется для работы классификатора. Здесь ,,. С ,. V множество тематик, Н с, ,у е иерархия тематик. В иерархии тематик в паре i тематика с является родительской по отношению к тематике . Иерархия наглядно представляется в виде дерева. Если иерархия имеет вид с,су , то такая иерархия соответствует часто встречающемуся в научных работах плоскому классификатору, где с0 корень иерархии. Описание каждой тематики с, представляет собой множество ее признаков. Ф x 0. Взаимодействие всех рассмотренных понятий можно проиллюстрировать схемой, представленной на рис.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.191, запросов: 244