+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов

Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов
  • Автор:

    Крижановский, Андрей Анатольевич

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2008

  • Место защиты:

    Санкт-Петербург

  • Количество страниц:

    188 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"
ВЫЧИСЛЕНИЯ МЕРЫ СХОДСТВА ВЕРШИН ГРАФА 
Алгоритмы анализа гиперссылок: HITS, PageRank, ArcRank, WLVM


Оглавление
ВВЕДЕНИЕ

Положения, выносимые на защиту


1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА И ПОИСКА СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ

Проблема синонимии,


1.1 Основные алгоритмы поиска похожих интернет страниц, поиска слов близких по значению,

ВЫЧИСЛЕНИЯ МЕРЫ СХОДСТВА ВЕРШИН ГРАФА

Алгоритмы анализа гиперссылок: HITS, PageRank, ArcRank, WLVM

Алгоритмы построения и анализа ссылок: Similarity Flooding, алгоритм извлечения

синонимов из толкового словаря и другие

Алгоритмы статистического анализа текста: ESA, поиск контекстно-связанных


слов
Метрики
1.2 Системы и ресурсы для обработки текста
GATE
Проект Диапинг
Тезаурусы WordNet, РуТез, Викисловарь
Вики-ресурсы
Корпус текстов вики-ресурса Википедия
Другие системы
1.3 Системы и способы графического представления тезаурусов и результатов поиска
1.4 Постановка задачи исследования
Выводы по главе
2. МЕТОДОЛОГИЧЕСКОЕ И МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ПОСТРОЕНИЯ СПИСКОВ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ В КОРПУСЕ ТЕКСТОВЫХ ДОКУМЕНТОВ С ГИПЕРССЫЛКАМИ И КАТЕГОРИЯМИ
2.1 Подход к поиску семантически близких слов
2.2 HITS алгоритм (формализация, анализ, поиск синонимов)
Формализация задачи
Дополнительные замечания
Тематическая связность авторитетных страниц
Применение способов оценки результатов поиска в Интернет к HITS алгоритму
Поиск синонимов с помощью HITS алгорипта
2.3 Адаптированный HITS алгоритм, включающий алгоритм иерархической кластеризации
Формализация понятия «похожие вершины» графа
Адаптированный HITS алгоритм
Kjiacmepueaiiun на основе категорий статей
Варианты объединения результатов AHITS алгоритма и алгоритма кластеризации
Временная сложность алгоритма
Эвристика: фильтрация на основе категорий статей
2.4 Вычисление меры сходства вершин графа. Оценка временной сложности. Эвристики
Задача поиска похожих вершин графа
Алгоритм поиска похожих вершин графа
Оценка временной сложности
Эвристики
2.5 Показатели численной оценки семантической близости списка слов
Коэффициент Спирмена
Выводы по главе
3. ОРГАНИЗАЦИЯ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ПОИСКА СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ, АВТОМАТИЧЕСКОЙ ОЦЕНКИ ПОИСКА И МОРФОЛОГИЧЕСКОГО АНАЛИЗА СЛОВ
3.1 Архитектура программной системы Synarcher
3.2 Архитектура подсистемы GATE для удаленного доступа (на основе XML-RPC протокола) к программе морфологического анализа Lemmatizer
3.3 Индексирование вики-текстов: архитектура системы и структура индексной базы данных
Архитектура системы построения индексной БД вики-текстов
Таблицы и отношения в индексной БД
3.4 Архитектура программной системы для автоматической оценки списков семантически
близких слов
Выводы по главе
4. ЭКСПЕРИМЕНТЫ И ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ РАЗРАБОТАННЫХ В ДИССЕРТАЦИИ АЛГОРИТМОВ
4.1 Экспериментальная оценка работы адаптированного HITS алгоритма
Оценка тестируемого корпуса текстов
Эксперименты с Английской Википедией
Эксперименты с Русской Википедией
Экспериментальное сравнение адаптированного с исходным HITS алгоритмом
Сравнение результатов работы A HITS алгоритма с другими на основе 353 пар
английских слов
Пример оценки эвристики с помощью коэффициента Спирмена
Применение коэффициента Спирмена для оценки параметров адаптированного HITS алгоритма
4.2 Сессия нормализации слов на основе модуля Russian POS Tagger, как одного из этапов автоматической обработки текстов в системе GATE
4.3 Индексирование вики-текста: инструментарий и эксперименты
Преобразование вики-текста с помощью регулярных выражений
API индексной базы данных вики
Эксперименты по построению индексных баз данных
Проверка выполнения закона Ципфа для вики-текстов
4.4 Эксперименты в проекте «Контекстно-зависимый поиск документов в проблемно-
ориентированных корпусах»
Выводы по главе
ЗАКЛЮЧЕНИЕ
СПИСОК ИСТОЧНИКОВ ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ 1. СПИСОК НАИБОЛЕЕ УПОТРЕБИТЕЛЬНЫХ СОКРАЩЕНИЙ
ПРИЛОЖЕНИЕ 2. АКТЫ ВНЕДРЕНИЯ
ПРИЛОЖЕНИЕ 3. ЭКСПЕРИМЕНТАЛЬНЫЕ ДАННЫЕ ПРОГРАММЫ БУХАКСНЕЯ
ПРИЛОЖЕНИЕ 4. УПОРЯДОЧЕНИЕ СПИСКОВ С ПОМОЩЬЮ РЕСПОНДЕНТОВ
ПРИЛОЖЕНИЕ 5. ВИКИПЕДИЯ
Отношения в Википедии
Замечания о категориях и ссылках Википедии

LSA [99], WikiRelate! [172] и других, выполняющими поиск на основе данных WordNet, Роже и ВП. Достоинство метода также в том, что он позволяет определять значение многозначного слова.
Метод извлечения контекстно связанных слов
Метод извлечения контекстно связанных слов на основе частотности словосочетаний предлагается в [145] для поиска контекстно похожих слов (КПС) и для машинного перевода. Данными для поиска КПС служат (1) семантически близкие слова из тезауруса, (2) словосочетания из базы данных (БД) с указанием типа связи между словами. Для слова w формируется cohort w, то есть группа слов, связанных одинаковыми отношениями со словом w, из базы словосочетаний. КПС слова w - это пересечение множества похожих слов (из тезауруса) с cohort w. Работа [145] интересна формулами, предлагаемыми для вычисления сходства между группами слов.
Обычно вычисляется сходство между отдельными* парами слов. В работе [145] вычисляется сходство между группами слов Gi и G2 на основе формул, предложенных в [121]. Вершины графа - слова, взвешенные рёбра указывают степень сходства между словами (таким образом, матрица инциденций - sim - матрица сходства, хранит сходство между отдельными элементами). Вычисляются:
AI - absolute interconnectivity (абсолютная связность), как суммарная сходство между всеми парами в группах: AI{GlGz)-',sm{x,y)
AC — absolute closeness (абсолютная близость или плотность) определяется
как среднее сходство между парами элементов: AC (G[ G2)= -AI(G, G2)
Разница между AI и АС в том, что в АС учитывается пары имеющие нулевое сходство (рис. 1).
В, [121] предлагает нормализовать абсолютную связность и близость за счёт вычисления внутренней связности и близости отдельных групп. Внутренняя связность и близость определяются на основе вычисления разбиения каждой группы (поиск за O(N) минимального числа рёбер, удаление которых приведёт к разбиению графа на две части).

Рекомендуемые диссертации данного раздела

Время генерации: 0.106, запросов: 967