Методы кодирования текстовой информации для построения нейросетевых классификаторов документов

Методы кодирования текстовой информации для построения нейросетевых классификаторов документов

Автор: Корж, Василий Вадимович

Шифр специальности: 05.13.06

Научная степень: Кандидатская

Год защиты: 2000

Место защиты: Москва

Количество страниц: 161 с.

Артикул: 289731

Автор: Корж, Василий Вадимович

Стоимость: 250 руб.

Методы кодирования текстовой информации для построения нейросетевых классификаторов документов  Методы кодирования текстовой информации для построения нейросетевых классификаторов документов 

ВВЕДЕНИЕ . ГЛАВА 1. Особенности решения задачи классификации текстовых документов . Нейрокомпьютинг способ решения сложных задач. ВЫВОДЫ ПО ПЕРЕСЙ ГЛАВЕ. ГЛАВА 2. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ. Определение информативности признаков и границ разделения частот признаков в методе бионной системы кодирования текстов . Отбор и группирование информативных признаков в методе бионной системы кодирования текстов . Формирование входов нейронных сетей з методе бионной системы кодирования текстов. Метод самокастраиваюдегося словаря ключевых слов. Формирование слов формирование признаков классов и кодирование текстов в метоле самонастраивающегося словаря ключевых слов . Кейросетевсй подход к решению задачи классификации. Формирование классификаторов. Выводы по второй главе. ГЛАВА 3. ИНЖЕНЕРНОЕ РЕШЕНИЕ ЗАДАЧИ ПОСТРОЕНИЯ АСКТ. Программноалгоритмическое обеспечение решения задачи классификации текстов. Выходы программы подготовки данных АСКТ на основе метода самонастраивающегося словаря ключевых слов.


Таким образом, необходимо учитывать оба подхода к определению важности термина. В модели, учитывающей различительную силу термина , хорошим термином считается такой, который, будучи приписан документу при индексировании, делает документы разных классов максимально непохожими друг на друга. Плохим считается такой термин, который делает документы белее похожими друг на друга, вследствие чего их различить становится труднее. Чем менее похожими будут зекторы индексационных терминов, соответствующие текстам, тем легче будет различать тексты. В модели, оснозанной на оценке информативности термина , в качестве входной информации используются оценки релевантности, полученные экспертами. Каждому термину присваивается специальный параметр, называемый информативностью. В начальный момент для всех терминов значения информативности равны 1. Если термин найден в списании класса и з документе, оцененном как релевантный, его значение информативности медленно повышается вплоть до максимального значения 2. Если же документ оценивается как нерелевантный, значение информативности термина постепенно снижается до 0. Во всех моделях индексирования специально предусматривается исключение некоторых высокочастотных терминов, которые не считаются ценными с точки зрения отражения содержания документа. Так, для исключения таких слов обычно применяются стопсписки и отрицательные словари. После исключения общеупотребительных слоз из оставшихся терминов можно удалить термины со значимостью ниже некоторого порога.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.222, запросов: 244