Синтез системы автоматической коррекции, индексации и поиска текстовой информации

Синтез системы автоматической коррекции, индексации и поиска текстовой информации

Автор: Бойцов, Леонид Моисеевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2003

Место защиты: Москва

Количество страниц: 144 с. ил

Артикул: 3295775

Автор: Бойцов, Леонид Моисеевич

Стоимость: 250 руб.

Синтез системы автоматической коррекции, индексации и поиска текстовой информации  Синтез системы автоматической коррекции, индексации и поиска текстовой информации 

ГЛАВА 1. Сущность задачи построения системы автокоррекции, индексации и поиска. Постановка задачи исследования. Проблема сравнения векторных показателей. Эвристические методы. Экспертные методы построения интегрального показателя . Экспертностатистические методы построения интеграль ного показателя. Метод экстремальной группировки признаков. Метод главных компонент. Прочие методы снижения размерности. Сущность задачи информационного поиска . Сущность задачи текстового поиска по сходству. Обзор исследований по алгоритмам вычисления расстояния редактирования . Постановка задачи и обоснование методов исследования. Выводы по Главе 1
ГЛАВА 2. Анализ хеширования по сигнатуре. Анализов факторов, влияющие на скорость поиска по сходству . Описание метода хеширования по сигнатуре ключевых слов ХС . Оценки эффективности ХС. ГЛАВА 3. Синтез корректирующего модуля с использованием метода главных компонент. Метод пграмм. Метрические деревья. Анализ экспериментальных данных методом главных компонент .


При принятии решения о выборе подходящей структуры словаря для модуля коррекции необходимо сравнивать различные методы, используя, в том числе, результаты экспериментальной проверки. Каждый метод характеризуется упорядоченным множеством признаков. Далеко не все наборы признаков могут быть однозначно сопоставлены. Такая неоднозначность сравнения характерна для векторных показателей. Основным методом преодоления неоднозначности является снижение размерности. Метод главных компонент МГК перспективный метод снижения размерности и сравнения векторных показателей. Он позволяет выделить наиболее перспективные алгоритмы в случае, когда невозможно выбрать Парето оптимальные алгоритмы по совокупности всех признаков. Результаты выбора с помощью МГК хорошо коррелируют с выбором Парето оптимальных методов по подмножествам признаков. Результаты теоретического анализа и практической проверки разработанной модификации нечеткого словарного поиска хеширования по сигнатуре свидетельствуют о том, что предложенный метод подходит для решения задачи коррекции и является наряду с методом лучей iдеревьев одним из лучших методов представления словаря. В результате анализа двухуровневых блочных полнотекстовых индексов было найдено компромиссное решение, позволяющее сочетать высокую скорость инкрементной индексации и компактность индекса. Дополнительно было показано, что закон Хипса является следствием закона Ципфа. Экспериментальная проверка показала, что метод блочной адресации может быть использован для индексации коллекций среднего размера порядка 1 млн. Предложенный метод является переносимым с точки зрения использования различных СУБД, а по скорости поиска и индексации соответствует коммерческим аналогам, системам с открытым кодом, а по некоторым показателям и превосходит их. Диссертация состоит из введения, четырех глав, выводов, списка литературы, приложений и изложена на 4 листах машинописного текста, в том числе основного текста на 0 листах. Работа иллюстрирована таблицами и 9 рисунками. Список литературы содержит источников в том числе на иностранных языках. ГЛАВА 1. Сущность задачи построения системы автокоррекции, индексации и поиска. Постановка задачи исследования. Проблема сравнения векторных показателей. Методы снижения размерности и построения интегральных критериев. Проблема сравнения сложных объектов заключается в том, что каждый объект предметной области представлен набором анализируемых признаков Ху,Х2,. Хп. Объекты могут быть сопоставлены по любому из признаков, но в целом они не сравнимы. Одним из наиболее распространенных подходов к решению задачи сопоставления векторных показателей является переход от многомерных наблюдений к одному интегральному показателю, который может рассматриваться как снижение размерности исследуемого пространства факторов до единицы 2. Существует бесконечно много различных способов построения такого показателя. Одним из самых простых и распространенных способов является взвешенная свертка Т,Х х . Основной недостаток этого метода заключается в том, что результат практически полностью зависит от выбора весов. В диссертационной работе роль сравниваемых объектов играют реализации алгоритмов словарного поиска по сходству. Как мы уже отмечали во введении, словарный поиск используется как при коррекции текстов, так и при поиске в уже проиндексированной документальной базе данных. При этом к методам словарного поиска предъявляется множество требовании, основными из которых являются высокая скорость поиска и индексации, а также простота реализации. Результаты экспериментальной проверки для пяти наборов тестовых данных разных размеров описываются векторами с несколькими десятками компонентов. Проблема снижения размерности векторов заключается в том, что общее число учитываемых факторов очень велико, в тс время как для визуализации данных и уменьшения объемов исходных данных число критериев должно быть снижено до одного, двух или трех. Следует отметить, что такое преобразование должно осуществляться без существенной потери информативности.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.216, запросов: 244