Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий

Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий

Автор: Манучарян, Левон Ашотович

Шифр специальности: 05.25.05

Научная степень: Кандидатская

Год защиты: 2012

Место защиты: Тамбов

Количество страниц: 141 с. ил.

Артикул: 6513399

Автор: Манучарян, Левон Ашотович

Стоимость: 250 руб.

Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий  Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий 

СОДЕРЖАНИЕ
Введение
1 Состояние и задачи разви тия методов извлечения информации из неструктурируемого текста.
1.1 Современные методы извлечения информации из неструктурированного текста.
1.1.1 Методы, основанные на правилах.
1.1.2 Методы извлечения, основанные на классификации
1.1.3 Методы извлечения, основанные на последовательной маркировке
1.1.4 Дискриминационные модели
1.1.5 Условные случайные поля ii i
1.2 Анализ систем извлечения информации из неструктурируемого текста.
1.2.1 Алгоритм извлечения информации i.
1.2.2 Алгоритм извлечения информации 2
1.2.3 Алгоритм извлечения информации i.
1.2.4 Алгоритм извлечения информации В 1.
1.2.5 Алгоритм со Скрытыми Марковскими Моделями
1.3 Неточности результатов извлечения информации в разных моделях
1.3.1 Доверительные величины при одиночных извлечений
1.3.2 Мультиатрибутные извлечения .
1.3.3 Множественные избыточные извлечения
1.4 Результаты анализа современных методов, моделей и систем извлечения информации
1.5 Выводы.
2 Методика релевантности извлечения конкретных типов сложных связей на основе онтологий.
2.1 Производные структуры. Дерево грамматического разбора и графы
зависимостей
2.1.1 Дерево грамматического разбора.
2.1.2 Граф зависимостей.
2.2 Онтология предметной области. Представление информационных составляющих сетевых ресурсов.
2.2.1 Использование онтологии для представления сложных связей
2.3 Методика извлечения информации на базе онтологий
2.3.1 Обработка текста пофразовым методом.
2.3.2 Проверка потенциальных связей, согласно модели онтологии
2.4 Алгоритмы извлечения и валидации информации на базе онтологий
2.4.1 Разрешение местоимений в алгоритме 1
3 Модель поиска персональной информации в глобальной сети с устранением неоднозначности в результатах при поиске персональных имен
3.1 Основные положения
3.2 Модель поиска при помощи кластеризации документов.
3.4 Выводы.
4 Моделирование и архитектура системы извлечения информации. Результаты внедрения.
4.1 Обзор архитектуры
4.2 Детали архитектуры и реализации
4.2.1 Служебная система запросов и ответов.
4.2.3 Пользовательский интерфейс, визуализация и система анализа
4.3 Практическая оценка и анализ использования Системы извлечения
Онтологии и примеры данных
4.4 Результаты и интерпретация.
4.4.1 Интерпретация.
4.4.2 Обсуждение ошибок
4.5 Запросы к графам.
4.6 Выводы.
Заключение.
Литература


Долгое время такие процессы были в большинстве своем неавтоматическими, делаясь при помощи экспертов в соответствующих предметных областях, которые полуавтоматическим путем извлекали информацию из разных источников данных (всемирная паутина, текст, изображения, общедоступные структурированные данные, и т. По мере того, как кодирование правил стало утомительным, были разработаны алгоритмы для автоматического обучения из образцов. Так как системы извлечения были устремлены к наиболее сложным неструктурированным источникам, правила оказывались слишком неустойчивыми. Обе модели далее были заменены глобальными условными моделями, также называемыми Условными произвольными полями (Conditional Random Fields). По мере расширения масштабов систем извлечения, и появления надобности в более цельном анализе структуры документа, были созданы методы конструкции грамматики. Методы, основанные на правилах и статистические методы продолжают использоваться параллельно, в зависимости от природы задачи извлечения. Также существуют гибридные модели, в которых делается попытка использования преимуществ статистических методов и методов, основанных на правилах. Рассмотрим основные теоретические представления извлечения предметнообластной информации из необработанного текста. При данном подходе используется несколько общих правил для извлечения информации из текста. Системы, основанные на правилах, больше всего употребляются при извлечении информации из полуструктрурированных веб страниц. Одним из принятых методов является изучение синтаксических структур с ограничениями, которые определяют предел текста, который нужно извлекать, т. Два главных принципа алгоритма изучения правил, в этих системах, следующие: восходящий метод (снизу вверх), при котором выучиваются правила от исключений до общих случаев, и нисходящий метод, где правила выучиваются от общих случаев до исключений. Существует много предложенных алгоритмов, таких как (LP)“ [], iASA [], Whisk [] и Rapier []. Оберточная индукция является методом, основанным на правилах, который предназначен для структурированных и полуструктурированных документов, таких, как веб страницы. Оберточная индукция — это техника автоматического обучения оберток. Если задан набор данных для обучения, алгоритм индукции изучает обертку для извлечения целевой информации. В данном направлении существует несколько исследовательских работ. Примеры типичных оберточных систем -WIEN [], Stalker [] и BWI []. В следующем подразделе будут рассмотрены системы WIEN и BWI, для представления общих принципов данного метода. При данном подходе используется управляемое машинное обучение для извлечения информации. Рассмотрим модель классификации подробней: для начала, рассмотрим проблему классификации для двух классов. Пусть {(х|,у|),. Вектор признаков представляет собой п-мерный вектор числовых признаков, которые описывают некоторый объект. Модель классификации состоит из двух этапов: обучение и прогнозирование. При обучении, делается попытка найти модель из помеченных данных, которая может разделить данные обучения, так как при прогнозировании обученная модель используется для определения того, должен ли непомеченный экземпляр быть классифицированным как -1 или +1 (в некоторых случаях, результаты прогнозирования могут быть числовыми значениями, с диапазоном 0-1. В таких случаях, экземпляр может быть классифицирован, используя некоторые правила, например, быть классифицирован как +,1 если значение прогнозирования больше, чем 0. Метод опорных векторов (Support Vector Machines, далее - SVM ]]) является одним из наиболее популярных методов модели классификации []. Главной идеей БУМ является нахождение оптимальной разделительной гиперплоскости, которая максимально разделяет два класса экземпляров обучения. Далее, гиперплоскость соответствуегся классификатору (линейному 5УМ). С>0 параметр контролирует максимальное число разрешенных ошибок при обучении. Теоретически гарантировано, что линейный классификатор, полученный таким путем, будет иметь небольшие ошибки обобщения. Линейный 8УМ может далее быть расширен в нелинейный, используя кернфункции, такие как Гауеовские и многочленные ядра []. Если существует более двух классов, можно использовать подход “один класс против остальных”, т.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.199, запросов: 228