Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках

Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках

Автор: Абрамов, Валерий Евгеньевич

Шифр специальности: 05.25.05

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Москва

Количество страниц: 163 с. ил.

Артикул: 4100026

Автор: Абрамов, Валерий Евгеньевич

Стоимость: 250 руб.

Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках  Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках 

СОДЕРЖАНИЕ
Введение
Глава 1. Автоматическое рубрицирование и реферирование в задачах
обработки текстов. Постановка задачи исследования
1.1. Обзор методов автоматического рубрицирования и реферирования текстовой информации.
1.2. Постановка задачи исследования.
Глава 2. Методы автоматического рубрицирования и реферирования
текстов
2.1. Морфологический и концептуальный анализ как основа обработки текстовой информации.
2.2. Метод автоматического рубрицирования с использованием словарей без учета и с учетом контекста
2.3. Составление реферата отдельного текста документа на основе результатов автоматического рубрицирования.
2.4. Метод обзорного реферирования по набору текстов документов
Глава 3. Применение методов автоматического рубрицирования и реферирования в системе автоматического рубрицирования текстов С
3.1. Общая характеристика системы САРТ
3.2. Словари в системе САРТ.
3.3. Технология автоматического рубрицирования и реферирования
3.4. Примеры работы системы.
Глава 4. Применение методов автоматического реферирования в
экспериментальной системе составления обзорных рефератов.
4.1. Общая характеристика системы составления обзорных рефератов
4.2 Технология обзорного реферирования.
4.3 Оценка работы системы
Выводы
Заключение но работе.
Литература


В качестве оценки близости документа и рубрики часто используют скалярное произведение вектора документа и вектора тематической рубрики. В каждом конкретном методе могут быть сформулированы правила, на основании которых можно отнести документ к какой-либо рубрике. В классическом подходе эти правила, а также описание рубрики выполняются экспертами. Позднее появились методы, в которых используется подход, названный машинным обучением. При этом подходе алгоритм рубрицирования обучается на некоторой репрезентативной выборке документов, каждый документ которой экспертами был отнесен к конкретным рубрикам. Известны случаи использования гибридных методов рубрицирования, комбинирующие машинное обучение и экспертный метод [, ]. Машинное обучение используется в сочетании с генетическим алгоритмом, служащим для сокращения размерности каждого множества признаков для всех тематических рубрик рассматриваемого набора документов. В работе [] описывается подобный метод. К классическим методам рубрицироваиия с обучением относится метод Байеса [, ]. Правила отнесения документа к рубрике строятся автоматически на основе вычисления вероятностей принадлежности документа к рубрике и выбора рубрик с максимальной вероятностью. Оценки принадлежности документа к рубрике находятся с помощью отношения количества документов из обучающей выборки, относящихся к данной рубрике, к общему числу документов в выборке. Однако при больших объемах документов метод Байеса мало пригоден в силу трудоемкости вычислительного процесса. Кроме того данный метод основан на предположении о независимости появления словоформ в тексте документа, тем самым игнорирует существующие взаимосвязи между словами []. В работе [] описан широко использующийся метод, который получил название TF-IDF. Этот метод также основан на вычислении условных вероятностей соответствия документа и рубрики, но использует другой алгоритм. Метод TF-IDF был предложен С. Робертсоном и С. Джонес. Попытки теоретически объяснить его эмпирические положения имеются в работах [, , , , , , ]. Суть метода состоит в использовании меры TF-IDF для оценки важности слов (весов). В основе метода лежит гипотеза о том, что "вес некоторого слова пропорционален частоте появления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции" []. Другими словами, чем чаще встречается слово в документе и реже в других документах, тем больший вес получит это слово. Мера TF-IDF является произведением двух сомножителей: TF и IDF. D - общее количество документов в коллекции, dj - количество документов коллекции, в которых встречается i-oe слово из рассматриваемого документа. Обычно выражение [3] логарифмируется. Применяется несколько разновидностей формул для вычисления меры TF-IDF, отличающиеся коэффициентами, способом логарифмирования и т. Однако некоторые авторы [, , , 1] указывают на недостатки и противоречия данного метода. Лилиан Ли из Корнельского университета замечает, что вероятность появления некоторого слова в документе коррелирует с вероятностью появления его в коллекции документов, а это не учитывается в рассматриваемом методе. Кроме того, этот метод игнорирует' отношение синонимии между словами. Например, если в тексте документа у некоторого слова есть синонимы, то частота появления его должна быть выше той, которая расчитывается в методе. В остальных документах коллекции это слово может появляться редко, однако его синонимы могут появляться с высокой частотой. Таким образом, в результате расчета по методу TF-1DF будет получен неверный результат. К недостаткам данного метода относится и то, что он опирается на отдельные слова и игнорирует словосочетания. В работах [, ] приводятся результаты экспериментальных исследований, свидетельствующие о преимуществах использования словосочетаний. Крофт и Харпер предложили вероятностный метод PSJ-PM [], в котором предлагается решение проблем, неразрешимых с помощью метода TF-IDF. В последние годы развиваются новые подходы к автоматическому рубрицированию, лежащие в области искусственною интеллекта.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.199, запросов: 228