Диссертация на тему "Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики", скачать бесплатно автореферат по специальности 05.13.15 - Вычислительные машины, комплексы и компьютерные сети

Содержание
Г лоссарий
Введение
Глава 1. Аналитический обзор современных методов автоматического анализа потоков текстовых сообщений. Постановка задачи
1.1 Современные методы информационного поиска
1.1.1 Метод информационного поиска на основе булевой алгебры
1.1.2 Оценка веса терминов в документе
1.1.3 Оценка схожести документов
1.2 Современные методы анализа потоков новостных сообщений
1.2.1 Современные средства представления и доставки потоков новостных сообщений в сети Интернет
1.2.2 Методы кластеризации потоков новостных сообщений
1.3 Лингвистические методы анализа текста
1.3.1 Методы синтаксического анализа основе экспертных знаний
1.3.2 Представление информации о языке на основе размеченных корпусов текстов
1.4 Методы синтаксического анализа на основе машинного обучения
1.4.1 Синтаксический анализ предложения с использованием алгоритма максимальных остовных деревьев
1.4.2 Метод синтаксического анализа предложения на основе системы переходов
1.5 Постановка задачи диссертационного исследования
Глава 2. Разработка гибридного алгоритма синтаксического анализа
2.1 Алгоритм снятия морфологической омонимии для русского языка
2.2 Модификация алгоритма Ковингтона для задачи анализа потоков новостных сообщений
2.3 Дополнение модифицированного алгоритма Ковингтона априорной информацией, извлеченной из системы ЭТАП-
2.4 Уточненная математическая модель признаков для синтаксического анализа русского языка
2.5 Краткие выводы
Глава 3. Разработка функциональной структуры комплекса и алгоритмов анализа потоков новостных сообщений
3.1 Математическая модель многоуровнего представления документа

3.2 Алгоритм кластеризации потоков новостных сообщений на модели признаков на основе обобщенной векторной модели документа
3.3 Базовые уровни представления новостного сообщения
3.4 Дополнительные уровни представления новостного сообщения на основе лингвистического анализа
3.5 Функциональная структура комплекса обработки новостных сообщений
3.5.1 Модуль первичного сбора и предварительной обработки новостей
3.5.2. Модуль индексирования
3.5.3 Модуль синтаксического анализа
3.5.4 Модуль кластеризации новостных сообщений
3.6 Краткие выводы
Глава 4. Экспериментальное исследование качества кластеризации потоков новостных сообщений и основных параметров синтаксического анализа
4.1 Задачи экспериментального исследования
4.2 Оценка качества снятия морфологической омонимии
4.3 Метрики оценки качества синтаксического анализа
4.4 Построение экспериментального корпуса новостных сообщений
4.5 Метрики оценки качества кластеризации новостных сообщений
4.6 Оценка качества кластеризации новостных сообщений
4.7 Оценка влияния различных уровней представления на точность и полноту кластеризации новостных сообщений
4.8 Экспериментальное определение зависимости точности и полноты кластеризации потоков новостных сообщений от точности синтаксического анализа
4.9 Вклад синтаксических групп в качество кластеризации новостных сообщений
4.10 Оценка влияния метрики расстояния именованных сущностей на качество кластеризации
4.11 Оценка влияния алгоритма кластеризации на качество кластеризации
4.12 Краткие выводы
Заключение
Библиография
Приложение 1. Исходный код гибридного алгоритма синтаксического анализа
Приложение 2. Исходный код алгоритма кластеризации
Приложение 3. Акты внедрения

Глоссарий
АРХИТЕКТУРА ИНФОРМАЦИОННОЙ СИСТЕМЫ - концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы [1].
БАЗА ЗНАНИЙ - организованная совокупность знаний, представленная в форме, которая допускает автоматическое или автоматизированное использование этих знаний на основе реализации возможностей средств информационных технологий [2].
БИГРАММА — п-грамма, где п=2 (см, Ц-ГРАММА)
ВЕКТОРНАЯ МОДЕЛЬ ДОКУМЕНТА - в информационном поиске представление коллекции документов векторами из одного общего для всей коллекции векторного пространства [3].
ВТОРИЧНЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ - описания (например: уровень образования, тип материала, предмет, аннотация или ключевые слова) и адреса ресурсов, не расположенных на текущем портале, а доступных через Интернет на других порталах, сайтах по гиперссылкам [4] [5].
ГАРМОНИЗАЦИЯ КОНТЕНТА - систематизация и унификация в результате изменения состава, свойств и признаков составляющих контента

ГИПЕРССЫЛКА - часть гипертекстового документа, ссылающаяся на другой элемент (команда, текст, заголовок, примечание, изображение) в самом документе, на другой объект (файл, каталог, приложение), расположенный на локальном диске или в компьютерной сети, либо на элементы этого объекта [6].
ГРАММАТИКА ЗАВИСИМОСТЕЙ - формальная модель, разработанная в рамках структурного синтаксиса, представляющая строй предложения в виде иерархии компонентов, между которыми установлено отношение зависимости [7].

«выполнить цель» является синтаксической группой, однако в первом примере в линейное покрытие попадает слово «можно», которое не относится к этой синтаксической группе.
Этап синтаксического анализа является критическим для глубокого анализа текста, поскольку морфологический анализ оперирует словами как отдельными и независимыми сущностями и поэтому не может отразить всю сложность структуры текста. В то же время, уровень синтаксического анализа располагается до семантического анализа, а значит, полностью определяет его качество.
В задаче обработки новостных потоков наиболее важными характеристиками алгоритма синтаксического анализа являются качество анализа, а также время работы алгоритма. Для задачи анализа новостных потоков необходима скорость, достаточная для анализа до 20 тыс. новостных сообщений в сутки, что соответствует новостному потоку от ведущих информационных агентств [26]. В среднем новостное сообщение состоит из 15 предложений. Тогда новостной поток в 20 тыс. сообщений состоит из 300 тыс. предложений. Таким образом, синтаксический анализатор должен обеспечивать скорость работы не менее 3,5 предложений в секунду для того, чтобы обработать весь поток новостных сообщений.
В настоящее время существует три наиболее эффективных подхода к синтаксическому анализу:
• Системы на основе формализованных правил анализа естественного языка (например, система ЭТАП-3).
• Алгоритмы на основе максимальных остовных деревьев.
• Алгоритмы на основе системы переходов.

Название работы	Автор	Дата защиты
Методология проектирования конечных изделий, включающих вычислительные машины и комплексы, на основе СБИС класса "Система на кристалле" с использованием высокоуровневых системных моделей	Губарев, Виталий Александрович	2012
Разработка и исследование средств отказоустойчивости распределённых вычислительных систем	Поляков, Артём Юрьевич	2010
Методы разработки и верификации архитектурных спецификаций вычислительных комплексов на основе систем на кристалле	Печенко, Иван Сергеевич	2018

Электронная библиотека диссертаций

Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики

Рекомендуемые диссертации данного раздела