+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Метод автоматического аннотирования новостных кластеров на основе тематического анализа

  • Автор:

    Алексеев, Алексей Александрович

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2014

  • Место защиты:

    Москва

  • Количество страниц:

    122 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Оглавление
ВВЕДЕНИЕ
1. АВТОМАТИЧЕСКОЕ АННОТИРОВАНИЕ
1.1 Задача автоматического аннотироваі іия
1.2 Методы автоматического аннотироваі іия
1.2.1 Общая классификация методов
1.2.2 Методы, основанные на частотных характеристиках слов
1.2.3 Тематические модели для автоматического аннотирования
1.2.4 Теория графов для построения автоматических аннотаций
1.2.5 Использование машинного обучения
1.2.6 Стратегии отбора предложений при подготовке аннотаций
1.3 Оценка качества автоматических аннотаций
1.3.1 Автоматические меры качества ROUGE
1.3.2 Метод «Пирамиды» (Pyramid Evaluation)
1.3.3 Сравнение различных методов оценки автоматических аннотаций
1.4 Выводы к цервой главе
2. ЛЕКСИЧЕСКАЯ ВАРИАТИВНОСТЬ И ЕЕ МОДЕЛИРОВАНИЕ
2.1 Вариативность в текстах на естественном языке
2.2 Цепочные методы смысловой группировки языковых
выражений
2.2.1 Алгоритм построения лексических цепочек на основе тезауруса WordNet для английского языка
2.2.2 Алгоритм построения лексических ііепочек на основе тезауруса РуТез для русского языка
2.3 Локальная и глобальная связі юсть текста
2.4 Предлагаемый метод построеі іия тематических цепочек
2.4.1 Формальная постановка задачи построения тематических цепочек
2.4.2 Характеристики схожести языковых выражений для построения тематических цепочек
2.4.3 Алгоритм построения тематических цепочек
2.5 Алгоритмическая сложі юсть и производительность алгоритма
построения тематических цепочек
2.6 Влияние лексической вариативности на установление
схожести
2.7 Выводы КО ВТОРОЙ ГЛАВЕ
3. ИНТЕГРАЦИЯ ТЕМАТИЧЕСКИХ ЦЕПОЧЕК В МЕТОДЫ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ
3.1 Интеграция в существующие методы аннотирования
3.1.1 Учет TF-IDF для многословных выражений
3.1.2 Интеграция в метод MMR
3.1.3 Интеграция в метод SumBasic
3.2 Новые методы аннотирования на основе построенных тематических цепочек
3.2.1 Построение аннотации по тематическим цепочкам
3.2.2 Построение аннотации по связям тематических цепочек.
3.3 Оценка автоматических аннотаций и основные результаты
3.4 Выводы к третьей главе
4. СИСТЕМА АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ НА ОСНОВЕ ТЕМАТИЧЕСКИХ ЦЕПОЧЕК
4.1 Общее описание программного комплекса
4.1.1 Архитектурная схема
4.1.2 Входные данные: Структура и предварительная обработка
4.2 Модуль построения тематических цепочек
4.3 Модуль автоматического аннотирования
4.4 Модуль оценки автоматических аннотаций
4.5 Выводы к четвертой главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ 2,

Введение
Развитие информационных технологий и появление сети Интернет явились причиной экспоненциального роста объемов электронной информации, начавшегося приблизительно два десятилетия назад и стремительно продолжающегося в настоящее время. Объемы информации уже сейчас достигли таких размеров, что человек не способен самостоятельно ознакомиться с материалами всех информационных источников, зачастую даже в контексте специализированных информационных потребностей. Данный факт обусловил активное развитие исследований в области задачи автоматического аннотирования -представления релевантной и наиболее значимой информации, необходимой пользователю, в сжатом, лаконичном виде.
Методы автоматического аннотирования исследовались в трудах российских и зарубежных ученых, таких как Барзилай Р., Добров Б.В., Лукашевич Н.В., Лун X., МакКыоин К., Мальковский М.Г., Мани И., Машечкин И.В., Ненкова А., Петровский М.И., Севбо И.П., Тарасов С.Д., Шиффман Б., Эдмундсон X. и многих других авторов. Спектр областей применения систем автоматического аннотирования является обширным и разнородным, от бытовых информационных потребностей обычных пользователей, до узкоспециализированных аналитических задач. Например, в рамках программы SUMMAC (TIPSTER Text Summarization Evaluation) [43] рассматривалась задача оценки релевантности текстового документа некоторой тематике. Данное исследование предполагало два варианта принятия решения экспертом:
• на основании прочтения всего исходного документа;
• на основании прочтения аннотации исходного документа.
Было установлено, что системы автоматического аннотирования позволяют лучше решать данную задачу - аннотации с максимальной длиной в 17% от исходного документа в два раза уменьшают время принятия аналитиком
суммы весов SCU, которые она содержит, по отношению к общему количеству SCU для данного текста:
[Суммарный _ вес _ найденных _ SCU]
[Суммарный _ вес _ всех _ SCU _для _ данного _ топика
Пример SCU и её вхождений в текст:
SCU: Мини-субмарина попала в ловушку под водой.
1. мини-субмарина... была затоплена... на дне моря
2. маленькая... субмарина... затоплена... на глубине 625 футов.
3. мини-субмарина попала в ловушку... ниже уровня моря.
4. маленькая... субмарина... затоплена... на дне морском
Метод «Пирамиды» позволяет формализовать процедуру оценки автоматических аннотаций, что значительно облегчает человеческий труд по оценке аннотаций и позволяет повысить объективность оценки. В то же время данный метод требует значительного участия человека, так как выделение «информационных единиц» как из экспертных, так и из автоматических аннотаций производится вручную.
1.3.3 Сравнение различных методов оценки автоматических аннотаций
Развитие методов оценки автоматических аннотаций является неотъемлемой частью развития автоматического аннотирования. В настоящее время пакет автоматических мер качества ROUGE (см. главу 1.3.1) по существу является «золотым стандартом» в данной области, являясь, по сути, обязательным при представлении любых новых алгоритмов и результатов в области автоматического аннотирования. Метод пирамидной оценки автоматических аннотаций (см. Раздел 1.3.2) появился позже пакета ROUGE, но при этом быстро занял значимое место в сравнении различных методов автоматического аннотирования ([54]).
Для автоматизированных методов оценки качества автоматического аннотирования важной является корреляция с оценками экспертом. В работе [56] приводится оценка взаимной корреляции различных мер качества

Рекомендуемые диссертации данного раздела

Время генерации: 0.101, запросов: 967