Диссертация на тему "Метод автоматического аннотирования новостных кластеров на основе тематического анализа", скачать бесплатно автореферат по специальности 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Оглавление
ВВЕДЕНИЕ

1. АВТОМАТИЧЕСКОЕ АННОТИРОВАНИЕ

1.1 Задача автоматического аннотироваі іия

1.2 Методы автоматического аннотироваі іия

1.2.1 Общая классификация методов

1.2.2 Методы, основанные на частотных характеристиках слов

1.2.3 Тематические модели для автоматического аннотирования

1.2.4 Теория графов для построения автоматических аннотаций

1.2.5 Использование машинного обучения

1.2.6 Стратегии отбора предложений при подготовке аннотаций

1.3 Оценка качества автоматических аннотаций
1.3.1 Автоматические меры качества ROUGE
1.3.2 Метод «Пирамиды» (Pyramid Evaluation)
1.3.3 Сравнение различных методов оценки автоматических аннотаций
1.4 Выводы к цервой главе
2. ЛЕКСИЧЕСКАЯ ВАРИАТИВНОСТЬ И ЕЕ МОДЕЛИРОВАНИЕ
2.1 Вариативность в текстах на естественном языке
2.2 Цепочные методы смысловой группировки языковых
выражений
2.2.1 Алгоритм построения лексических цепочек на основе тезауруса WordNet для английского языка
2.2.2 Алгоритм построения лексических ііепочек на основе тезауруса РуТез для русского языка
2.3 Локальная и глобальная связі юсть текста
2.4 Предлагаемый метод построеі іия тематических цепочек
2.4.1 Формальная постановка задачи построения тематических цепочек
2.4.2 Характеристики схожести языковых выражений для построения тематических цепочек
2.4.3 Алгоритм построения тематических цепочек
2.5 Алгоритмическая сложі юсть и производительность алгоритма
построения тематических цепочек
2.6 Влияние лексической вариативности на установление
схожести
2.7 Выводы КО ВТОРОЙ ГЛАВЕ
3. ИНТЕГРАЦИЯ ТЕМАТИЧЕСКИХ ЦЕПОЧЕК В МЕТОДЫ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ
3.1 Интеграция в существующие методы аннотирования
3.1.1 Учет TF-IDF для многословных выражений
3.1.2 Интеграция в метод MMR
3.1.3 Интеграция в метод SumBasic
3.2 Новые методы аннотирования на основе построенных тематических цепочек
3.2.1 Построение аннотации по тематическим цепочкам
3.2.2 Построение аннотации по связям тематических цепочек.
3.3 Оценка автоматических аннотаций и основные результаты
3.4 Выводы к третьей главе
4. СИСТЕМА АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ НА ОСНОВЕ ТЕМАТИЧЕСКИХ ЦЕПОЧЕК
4.1 Общее описание программного комплекса
4.1.1 Архитектурная схема
4.1.2 Входные данные: Структура и предварительная обработка
4.2 Модуль построения тематических цепочек
4.3 Модуль автоматического аннотирования
4.4 Модуль оценки автоматических аннотаций
4.5 Выводы к четвертой главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ 2,

Введение
Развитие информационных технологий и появление сети Интернет явились причиной экспоненциального роста объемов электронной информации, начавшегося приблизительно два десятилетия назад и стремительно продолжающегося в настоящее время. Объемы информации уже сейчас достигли таких размеров, что человек не способен самостоятельно ознакомиться с материалами всех информационных источников, зачастую даже в контексте специализированных информационных потребностей. Данный факт обусловил активное развитие исследований в области задачи автоматического аннотирования -представления релевантной и наиболее значимой информации, необходимой пользователю, в сжатом, лаконичном виде.
Методы автоматического аннотирования исследовались в трудах российских и зарубежных ученых, таких как Барзилай Р., Добров Б.В., Лукашевич Н.В., Лун X., МакКыоин К., Мальковский М.Г., Мани И., Машечкин И.В., Ненкова А., Петровский М.И., Севбо И.П., Тарасов С.Д., Шиффман Б., Эдмундсон X. и многих других авторов. Спектр областей применения систем автоматического аннотирования является обширным и разнородным, от бытовых информационных потребностей обычных пользователей, до узкоспециализированных аналитических задач. Например, в рамках программы SUMMAC (TIPSTER Text Summarization Evaluation) [43] рассматривалась задача оценки релевантности текстового документа некоторой тематике. Данное исследование предполагало два варианта принятия решения экспертом:
• на основании прочтения всего исходного документа;
• на основании прочтения аннотации исходного документа.
Было установлено, что системы автоматического аннотирования позволяют лучше решать данную задачу - аннотации с максимальной длиной в 17% от исходного документа в два раза уменьшают время принятия аналитиком
суммы весов SCU, которые она содержит, по отношению к общему количеству SCU для данного текста:
[Суммарный _ вес _ найденных _ SCU]
[Суммарный _ вес _ всех _ SCU _для _ данного _ топика
Пример SCU и её вхождений в текст:
SCU: Мини-субмарина попала в ловушку под водой.
1. мини-субмарина... была затоплена... на дне моря
2. маленькая... субмарина... затоплена... на глубине 625 футов.
3. мини-субмарина попала в ловушку... ниже уровня моря.
4. маленькая... субмарина... затоплена... на дне морском
Метод «Пирамиды» позволяет формализовать процедуру оценки автоматических аннотаций, что значительно облегчает человеческий труд по оценке аннотаций и позволяет повысить объективность оценки. В то же время данный метод требует значительного участия человека, так как выделение «информационных единиц» как из экспертных, так и из автоматических аннотаций производится вручную.
1.3.3 Сравнение различных методов оценки автоматических аннотаций
Развитие методов оценки автоматических аннотаций является неотъемлемой частью развития автоматического аннотирования. В настоящее время пакет автоматических мер качества ROUGE (см. главу 1.3.1) по существу является «золотым стандартом» в данной области, являясь, по сути, обязательным при представлении любых новых алгоритмов и результатов в области автоматического аннотирования. Метод пирамидной оценки автоматических аннотаций (см. Раздел 1.3.2) появился позже пакета ROUGE, но при этом быстро занял значимое место в сравнении различных методов автоматического аннотирования ([54]).
Для автоматизированных методов оценки качества автоматического аннотирования важной является корреляция с оценками экспертом. В работе [56] приводится оценка взаимной корреляции различных мер качества

Название работы	Автор	Дата защиты
Исследование и разработка методов сопровождения людей и частей их тела в видеопоследовательности	Шальнов, Евгений Вадимович	2018
СУБД полнообъектных картографических сцен с ассоциативной защитой на кластерной платформе	Пыстогов, Сергей Васильевич	2019
Технология автоматизации создания приложений баз данных с ГИС-функциональностью на основе их декларативных спецификаций	Фереферов, Евгений Сергеевич	2014

Электронная библиотека диссертаций

Метод автоматического аннотирования новостных кластеров на основе тематического анализа