Формирование контента реферата при автоматическом реформировании научного текста

Формирование контента реферата при автоматическом реформировании научного текста

Автор: Пачковская, Светлана Валерьевна

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2010

Место защиты: Улан-Удэ

Количество страниц: 180 с. ил.

Артикул: 4645847

Автор: Пачковская, Светлана Валерьевна

Стоимость: 250 руб.

Формирование контента реферата при автоматическом реформировании научного текста  Формирование контента реферата при автоматическом реформировании научного текста 

Содержание
Введение.
1 Обзор существующих решений автоматического реферирования
1.1 Обзор методологий решения задачи автоматического реферирования текста.
1.1.1 Классификация методологий по структурированности реферата
1.1.1.1 Методологии, направленные на получение конечного результата с четкой структурой.
1.1.1.2 Методологии, направленные на получение конечного результата в виде резюме.
1.1.2 Классификация методологий по методам составления резюме
1.1.2Л Метод составления выдержек.
1.1.2.2 Метод формирования краткого изложения.
1.1.3 Классификация методологий по наличию прототипного программного обеспечения.
1.1.4 Анализ методологий решения задачи автоматического реферирования текста.
1.2 Обзор коммерческих систем по автоматическому реферированию текста.
1.2.1 Системы обработки текста.
1.2.2 Системы автоматического реферирования
1.2.3 Анализ существующих систем автоматического реферирования
1.3 Классификация рефератов
1.4 Описание проблемы и постановка задачи
1.5 Выводы по разделу
2 Методы лингвистического анализа научного текста
2.1 Обобщенная схема решения задачи автоматического реферирования текста.
2.2 Морфологический и синтаксический анализы.
2.3 Выделение устойчивых словосочетаний
2.3.1 Модели словосочетаний
2.3.2 Способ выделения словосочетаний
2.3.2.1 Основные аспекты поиска словосочетаний
2.3.2.2 Автоматная модель поиска именных словосочетаний.
2.3.2.3 Разбиение множества словосочетаний на классы эквивалентностей
2.3.2.4 Анализ выделенных словосочетаний
2.4 Модифицированный граф зависимостей.
2.5 Семантический анализ.
2.5.1 Построение графов семантической окрестности
2.5.2 Соединение графов семантической окрестности
2.6 Выводы по разделу
3 Формирование контента реферата научного текста
3.1 Формирование контента резюме.
3.1.1 Выбор предложенийкандидатов в текст резюме
3.1.2 Анализ выбранных предложений на предмет удаления лишних
3.1.3 Построение логической последовательности предложений текста резюме.
3.2 Оценка реферата
3.3 Выводы по разделу
4 Программное обеспечение и вычислительные эксперименты.
4.1 Описание программного обеспечения
4.1.1 Функциональность системы.
4.1.2 Основные классы и пакеты системы.
4.2 Вычислительные эксперименты
4.3 Выводы по разделу.
Заключение.
Список литературы


Теория и методика реферирования-экстрагирования были разработаны в конце -хх годах группой исследователей из Ленинградского института культуры: Д. И. Блюменау, Н. И. Гендиной, И. Добронравовым, В. П. Леоновым, Н. Э. Сергеевой [-, , ] и др. В разработке данного подхода также принимал участие Д. Г. Лахути. В рамках экстрагирования под реферированием понимается «извлечение из текста-первоисточника предложений, характеризующих основное содержание этого текста, на основе заранее сформулированных правил. Набор таких предложений образует реферат-экстракт». Под маркерами понимаются слова и словосочетания, однозначно выражающие тот или иной аспект текста первичного документа. Например, аспект щелевая установка» характеризуется маркерами «Цель», «Целыо является», а аспект «предлагаемый вариант решения проблемы» - маркерами «В работе предлагается», «Предлагаемый. Индикаторы, в отличие от маркеров, не связаны с каким-либо аспектом текста, а указывают на предложения, которым автор придает особое значение, например, «Следует подчеркнуть», «Необходимо отметить», «Следовательно». Коннекторы служат для выделения предложений, так или иначе связанных с маркированными предложениями. При этом», «В частности», «Например», «В том числе», «Следующий» - коннекторы второго типа. Экстрагирование проводится с использованием словаря маркеров и индикаторов (словесных клише) и включает следующие этапы. Просмотр текста первичного документа и выписывание предложений, содержащих маркеры. Предложения с индикаторами выписываются только в том случае, если референт считает, что одних маркированных предложений недостаточно. При наличии коннекторов первого типа делается шаг назад и выписывается предыдущее предложение. При наличии коннекторов второго типа делается шаг вперед и выписывается следующее предложение. К недостаткам данного метода можно отнести его трудоемкость при составлении словарей маркеров, индикаторов и коннекторов, а также несоответствие структуры реферата ГОСТу 7. В рамках рассматриваемой методологии подход, основанный на реферировании-экстрагировании, является самым развитым, но, к сожалению, не имеет программной реализации. Создание реферата основано на компрессии информации исходного текста, например, за счет выбора ключевых слов [] или информативно нагруженных предложений, располагающихся в «опорных точках текста». К «опорным точкам текста» могут относиться начало (заглавие, введение) или конец текста (выводы, заключение, рекомендации) []. Можно выделить два основных метода реферирования текста при составлении резюме: составление выдержек и формирование краткого изложения. Оба метода преследуют основную цель - определить наиболее важную или основную мысль оригинала. Метод составления выдержек описан в работах У. Хана, И. Манн, И. В. Николаевой [, 7]. Этот метод делает акцент на выделение характерных фрагментов (как правило, предложений) и редко предполагает изменение структуры выбранного предложения. Методом сопоставления фразовых шаблонов выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае заключается в соединении выбранных фрагментов. В большинстве подобных методов применяется модель линейных весовых коэффициентов (метрик). Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов таким характеристикам блока текста, как расположение, частота появления этого блока в тексте, частота его использования в ключевых предложениях, а также показатели статистической значимости. Сумма всех индивидуальных весов дает общий вес всего блока текста U: weight(U):= Location(U)+ CuePhrase (U)+ StatTerm(U)+ AddTenn(U). Весовой коэффициент расположения (Location) зависит от того, в каком месте текста (или отдельно взятого параграфа) появляется данный фрагмент - в начале, середине или конце текста, а также используется ли он в ключевых разделах, таких как вводная часть или заключение. Ключевые фразы (CuePhrase) представляют собой лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и так далее.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.261, запросов: 244