+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Методы и программные средства извлечения терминов из коллекции текстовых документов предметной области

  • Автор:

    Астраханцев, Никита Александрович

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2014

  • Место защиты:

    Москва

  • Количество страниц:

    148 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Содержание
Введение
1 Извлечение терминов
1.1 Определение термина
1.1.1 Дискуссии о статусе термина
1.1.2 Признаки термина
1.1.3 Рабочие определения термина
1.2 Сценарии извлечения терминов
1.3 Обзор существующих работ
1.3.1 Существующие обзоры и экспериментальные сравнения .
1.3.2 Общая схема методов извлечения терминов
1.3.3 Методы на основе статистики вхождений
1.3.4 Методы на основе внешних ресурсов
1.3.5 Методы на основе Википедии
1.3.6 Методы вывода на основе признаков
1.4 Методы оценки эффективности
1.5 Выводы
2 Методы извлечения терминов на основе Википедии
2.1 Метод «Вероятность быть гиперссылкой»
2.2 Метод «Близость к ключевым концептам»
2.2.1 Определение концептов предметной области
2.2.2 Вычисление семантической близости
2.2.3 Описание алгоритма
2.3 Экспериментальное исследование разработанных методов
2.3.1 Описание экспериментальной установки
2.3.2 Выбор параметров
2.3.3 Сравнение с существующими методами

2.4 Выводы
3 Метод извлечения терминов на основе алгоритма частичного обучения
3.1 Общая схема подхода
3.2 Автоматическое извлечение положительных примеров
3.2.1 Специфичность терминов
3.2.2 Описание метода извлечения положительных примеров .
3.3 Обучение на положительных и неразмеченных примерах
3.3.1 Обзор существующих алгоритмов Р11-1еагп^
3.3.2 Адаптация алгоритмов РСЧеагп^
3.3.3 Выбор признаков
3.4 Экспериментальное исследование разработанного подхода
3.4.1 Выбор параметров
3.4.2 Сравнение разработанного подхода с существующими методами
3.4.3 Проверка статистической значимости
3.4.4 Сравнение разработанного метода с методом на основе обучения с учителем
3.5 Выводы
4 Программная система извлечения терминов
4.1 Общая архитектура программной системы
4.2 Анализ вычислительной сложности алгоритмов
4.3 Особенности программной системы
4.3.1 Примененные технологии
4.3.2 Использованные оптимизации
4.4 Выводы
Заключение
Литература
А Примеры результатов работы предложенного подхода
В Зависимость точности от числа извлекаемых терминов

Введение
Актуальность
Термин — это слово или словосочетание, обозначающее понятие заданной предметной области. Автоматическое извлечение терминов является важным этапом решения многих задач, связанных с обработкой текстов предметной области. К таким задачам относятся построение глоссариев, тезаурусов или онтологий, информационный поиск, машинный перевод, классификация и кластеризация документов.
К настоящему времени разработано множество методов автоматического извлечения терминов, однако их эффективность остается достаточно низкой: как правило, их точность и полнота1 не превышают 50% — и при этом может сильно варьироваться для разных предметных областей. Кроме того, многие методы требуют размеченных вручную данных, что сужает их практическую применимость.
Одна из причин низкой эффективности методов заключается в том, что они недостаточно полным образом используют возможные источники данных.
Большинство существующих методов извлечения терминов основано на частоте вхождения кандидатов в рассматриваемую коллекцию текстовых документов. К таковым относятся, например, частота вхождений термина (Term Frequency, TF), TF-IDF [1], Domain Consensus [2], C-Value [3]. Одними из первых методов извлечения многословных терминов можно считать меры ассоциации, измеряющие, насколько случайно совместное появление слов в составе термина: взаимная информация (Mutual Information, MI), критерии Стьюдента (TTest), хи-квадрат, логарифмическое правдоподобие (Loglikelihood Ratio), LexicalCohesion и др. В отдельную подгруппу можно вынести методы на основе тематического моделирования: Term Score [4],
'Определения точности и полноты приводятся в разделе 1.4.

называемых «границами предметной области» (domain borders), которые наиболее точно и полно описывают желаемую предметную область.
Алгоритм оценки кандидатов в термины состоит в следующем. Для каждого кандидата определяются все его концепты (статьи Википедии с таким названием — в общем случае может быть несколько статей для одного кандидата по причине лексической многозначности), после чего для каждого статьи определяются все категории, которым она принадлежит. Из всех полученных оценок для каждой из статей в конечном итоге выбирается лучшая.
Далее, для каждой категории запускается рекурсивный обход графа категорий (следуя только по ссылкам в категории верхнего уровня), до тех пор пока не будет достигнута заданная граница предметной области либо категория самого верхнего уровня. Свойства полученных путей в конечном итоге используются для получения оценки кандидата одним из нижеприведенных способов.
1. Количество путей (NC):
Nc(t) = ”;.(f, (1.16)
где NPdomain(t) — количество путей от категорий кандидата до границы домена; NPtotai(t) — количество путей от категорий кандидата до категории верхнего уровня.
2. Длина путей (LC):
_ LPtatalV') LPdomain(t) {(
LC{t)~ ад ’ (1Л7)
где LPdomain.it) — длина путей (суммарная) от категорий кандидата до границы домена; ЬРМа1{Ь) — длина путей (суммарная) от категорий кандидата до категории верхнего уровня.
3. Средняя длина путей (ЬМС):
АЬРШпі(і) — АЬР,iomain.it)
ІС(І) = аЩ^Ї) ' (1Л8)

Рекомендуемые диссертации данного раздела

Время генерации: 0.236, запросов: 967