Разработка и исследование методов и средств полнотекстового индексирования информации с учетом морфологии естественного языка

Разработка и исследование методов и средств полнотекстового индексирования информации с учетом морфологии естественного языка

Автор: Кизянов, Александр Федорович

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Таганрог

Количество страниц: 168 с. ил.

Артикул: 2772246

Автор: Кизянов, Александр Федорович

Стоимость: 250 руб.

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. ИССЛЕДОВАНИЕ МЕТОДОВ ПОСТРОЕНИЯ ПОЛНОТЕКСТОВЫХ ПОИСКОВЫХ ИНДЕКСОВ
1.1. АНАЛИЗ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА.
1.2. АНАЛИЗ МЕТОДОВ ПОЛНОТЕКСТОВОЙ ИНДЕКСАЦИИ ТЕКСТА
1.2.1. МЕСТО ПОЛНОТЕКСТОВОГО ПОИСКА СРЕДИ ЗАДАЧ В ИНФОРМАЦИОННОМ ПОИСКЕ.
1.2.2. ОСНОВНЫЕ МЕТОДЫ ПОСТРОЕНИЯ ПОЛНОТЕКСТОВЫХ ИНДЕКСОВ.
1.2.3. ВЫВОД О ПРИМЕНИМОСТИ МЕТОДОВ ИНДЕКСИРОВАНИЯ ДЛЯ РЕШЕНИЯ ПОСТАВЛЕННОЙ ЗАДАЧИ
. АНАЛИЗ ПОИСКА ПО ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ
1.3.1. ПРОБЛЕМАТИКА ОРГАНИЗАЦИИ ПОИСКА.
1.3.2. АНАЛИЗ МЕТОДА СТЕММИНГА.
1.4. ВЫБОР МЕТОДОВ ИНДЕКСИРОВАНИЯ, ДОПУСКАЮЩИХ ИЕРАРХИЧЕСКУЮ ОРГАНИЗАЦИЮ ПАМЯТИ
1.4.1. ИЕРАРХИЯ ПАМЯТИ
1.4.2. ВЫБОР МЕТОДОВ ИНДЕКСИРОВАНИЯ
ВЫВОДЫ
ГЛАВА 2. ПОСТРОЕНИЕ И ПРИМЕНЕНИЕ МОРФОЛОГИЧЕСКОГО ИНДЕКСА
2.1. УПРОЩННОЕ ОПИСАНИЕ МОРФОЛОГИИ СЛОВА
2.2. МОДЕЛЬ ИНФОРМАЦИОННОГО ПОИСКА, УЧИТЫВАЮЩАЯ МОРФОЛОГИЮ ТЕКСТА
. ПОСТРОЕНИЕ И ИСПОЛЬЗОВАНИЕ ПОИСКОВОГО ИНДЕКСА
2.3.1. БЛОЧНАЯ СТРУКТУРА ПОИСКОВОГО ИНДЕКСА
2.3.2. СТРУКТУРА БЛОКА ИНДЕКСА.
2.3.3. НАПОЛНЕНИЕ ИНДЕКСА
2.3.4. УЛУЧШЕНИЕ ИНДЕКСА.
2.4. УЛУЧШЕНИЕ ИНДЕКСА С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ
2.4.1. ОШИБКИ УЛУЧШЕНИЯ ПОИСКОВОГО ИНДЕКСА.
2.4.2. МОДИФИЦИРОВАННАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ ОБРАБОТКИ ТЕКСТА
2.5. ПОИСК ПО МОРФОЛОГИЧЕСКОМУ ИНДЕКСУ
2.6. ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ПОИСКОВОГО ИНДЕКСА
2.6.1. СИГНАТУРА ПЕРВОГО ТИПА
2.6.2. СИГНАТУРА ВТОРОГО ТИПА
2.6.3. МОДИФИКАЦИЯ МЕТОДА РАЗРЕШЕНИЯ КОЛЛИЗИЙ ОТКРЫТОЙ АДРЕСАЦИЕЙ
2.6.4. ЛЕКСИКОГРАФИЧЕСКАЯ СОРТИРОВКА. УСКОРЯЮЩАЯ ПОИСК МАКСИМАЛЬНОЙ ДОПОЛНИТЕЛЬНОЙ МОРФЕМЫ В СЛОВЕ
ВЫВОДЫ
ГЛАВА 3. МОДЕЛИРОВАНИЕ ПРОЦЕССА ОБУЧЕНИЯ ПРЕДЛОЖЕННОЙ НЕЙРОННОЙ СЕТИ.
3.1. МОДЕЛИРОВАНИЕ ЯЗЫКА
3.2. ВОЗДЕЙСТВИЯ СО СТОРОНЫ ДОПОЛНИТЕЛЬНЫХ МОРФЕМ
3.2.1. ВЕРОЯТНОСТИ ИЗМЕНЕНИЙ РАЗНЫХ ТИПОВ ПРИ ОБУЧЕНИИ ДОПОЛНИТЕЛЬНЫХ МОРФЕМ
3.2.2. СООТНОШЕНИЯ ВЕРОЯТНОСТЕЙ ДЛЯ ДОПОЛНИТЕЛЬНЫХ МОРФЕМ
. ВЕСОВЫЕ КОЭФФИЦИЕНТЫ РАЗНЫХ ТИПОВ ВОЗДЕЙСТВИЙ ДЛЯ ДОПОЛНИТЕЛЬНЫХ МОРФЕМим.и. .
3.3.1. ВЫВОДЫ ПО ОБУЧЕНИЮ ДОПОЛНИТЕЛЬНЫХ МОРФЕМ
3.3.2. ОЦЕНКА СООТНОШЕНИЙ ВЕСОВЫХ КОЭФФИЦИЕНТОВ ВОЗДЕЙСТВИЙ НА ГРАНИЦУ РАЗБИВКИ СО СТОРОНЫ ДОПОЛНИТЕЛЬНОЙ МОРФЕМЫ
3.4. ОБУЧАЮЩИЕ ВОЗДЕЙСТВИЯ СО СТОРОНЫ ОСНОВНЫХ ЧАСТЕЙ СЛОВ
3.4.1. I.
3.4.2. СЛУЧАИ VI.
3.4.3. СОВПАДЕНИЕ ГРАНИЦ РЕАЛЬНЫХ МОРФЕМ С ГРАНИЦАМИ ВЫДЕЛЕННЫХ МОРФЕМ
3.4.4. ОШИБОЧНЫЕ ВОЗДЕЙСТВИЯ ВСЛЕДСТВИЕ СЛУЧАЙНОГО СОВПАДЕНИЯ ПОДСТРОК СИМВОЛОВ.
3.5. СООТНОШЕНИЯ ВЕРОЯТНОСТЕЙ ДЛЯ ОСНОВНЫХ ЧАСТЕЙ СЛОВ ПРИ НОВОМ ПОДХОДЕ мм1мммимм1ммимммам ммммммммммммаммммммммммммммммммм
3.5.1. I.
3.5.2. СЛУЧАИ VI.
3.5.3. СОВПАДЕНИЕ ГРАНИЦ РЕАЛЬНЫХ МОРФЕМ С ГРАНИЦАМИ ВЫДЕЛЕННЫХ МОРФЕМ
3.6. ВЕСОВЫЕ КОЭФФИЦИЕНТЫ ВОЗДЕЙСТВИЙ НА ГРАНИЦУ РАЗБИВКИ СО СТОРОНЫ ОСНОВНОЙ ЧАСТИ СЛОВА
3.7. СООТНОШЕНИЕ ВОЗДЕЙСТВИЙ НА ГРАНИЦУ РАЗБИВКИ СО СТОРОНЫ ОСНОВНЫХ ЧАСТЕЙ СЛОВ И ДОПОЛНИТЕЛЬНЫХ МОРФЕМ.
3.7.1. ВЕСОВЫЕ КОЭФФИЦИЕНТЫ ДЛЯ ВОЗДЕЙСТВИЙ СО СТОРОНЫ МОРФЕМ РАЗЛИЧНЫХ ТИПОВ.
3.7.2. ОПРЕДЕЛЕНИЕ НОРМИРУЮЩЕГО КОЭФФИЦИЕНТА А
3.8. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТА.
3.9. ОЦЕНКА ЭФФЕКТИВНОСТИ УЛУЧШЕННОГО ПОИСКОВОГО ИНДЕКСА .
3.9.1. ТЕСТОВАЯ КОЛЛЕКЦИЯ.
3.9.2. ОЦЕНКА КАЧЕСТВА ИНДЕКСАЦИИ.
3.9.3. ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ
3.9.4. АНАЛИЗ РЕЗУЛЬТАТОВ.
ВЫ ВОДЫ
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


Основная часть работы изложена на 9 страницах машинописного текста, рисунках, формулах и 9 таблицах. ГЛАВА 1. В главе проводится исследование предметной области и анализ существующих моделей информационного поиска и методов полнотекстового индексирования. Роль моделей поиска в информационном поиске определение того, какие признаки термы будут существенными, и как на основе их совпадения будет определяться числовое значение релевантности. Этот раздел представляет краткий анализ трех моделей поиска, которые оказали наибольшее влияние на современные исследования в области информационного поиска векторнопространственная модель, вероятностная модель и логическая модель 7, , , . Цель анализа выбрать подход, приемлемый для решения поставленной задачи. Историческая справка. Информационный поиск был одной из первых областей обработки естественного языка, в котором была успешно применена статистика. Логическая модель информационного поиска была первой, успешно применнной на практике. Две современные модели поиска на основе сортировки, разработаны в конце х модель векторного пространства Сэлтона . Робертсона . Е. и СпаркаДжонса К. Но, несмотря на их успех, наибольшее применение этот подход нашл в области распознания речи в х и х. В то же время, статистические модели, изначально применявшиеся в обработке речи, также могут использоваться для информационного поиска. Понте и Крофт И предложили использовать языковые модели в информационном поиске. Хиемстра . Край . Миллер и др. II. Т. , применили скрытые Марковские цепи. Бергер и Лафферти . Аналогичный подход был разработан для поиска кроссязычный информации Хиемстрой, де Джонгом . М. . Краайсм и др. В приведена модель, которая использует коэффициент условной вероятности запроса, присваивает документу вероятность соответствия запросу и включает метод расширения запроса. Сонг и Крофт . Специальные понятия. В области разработки методов информационного поиска принята некоторая специализированная терминология. Например, слова коллекция, корпус, терм, индексирование. Коллекция документов или коллекция множество текстовых документов произвольного содержания и структуры, предназначенное для тестирования методов поиска. В качестве коллекций могут использоваться, например архивы журналов. Корпус документов корпус текстов это коллекция, все документы которой имеют одинаковую тематику, небольшой разброс размеров и стандартную структуру. Термом назовм признак или элемент данных, по которому можно провести поиск, и которому соответствует свой уникальный ключ. При поиске по тексту, в роли термов часто используют слова. Вектор длины п или просто вектор это упорядоченный кортеж чисел определнной длины п. Под релевантностью текста или терма А тексту терму Б ниже понимается числовое значение, характеризующее похожесть А на Б. Поскольку в данной работе не рассматриваются вопросы, связанные с синтаксисом и семантикой текста, то релевантность аппроксимируются статистикой вхождений элементов А в Б. Индексирование ixi, индексация процесс составления или приписывания указателя индекса служебной структуры данных, необходимой для последующего поиска. Получение конкретного фрагмента или фрагментов информации из больших объемов данных, ранее сохраннных это фундаментальная операция, называемая поиском , присущая многим вычислительным задачам. Ранжирование упорядочивание, сортировка перестановка элементов последовательности в порядке возрастания или убывания некоторого параметра, присущего каждому из элементов. В информационном поиске, ранжирование подразумевает упорядочивание списка ответов на запрос, в порядке уменьшения их релевантности запросу. Технология информационного поиска включает в себя такие составляющие, как предварительную обработку текста индексирование, обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь. Векторнопространственная модель. Традиционная векторнопространственная модель опирается на упорядочивание документов по степени сходства между каждым документом и запросом . Вычисления в векторнопространственной модели основываются на геометрии.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.200, запросов: 244