Оценка систем текстового поиска

Оценка систем текстового поиска

Автор: Кураленок, Игорь Евгеньевич

Автор: Кураленок, Игорь Евгеньевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2004

Место защиты: Санкт-Петербург

Количество страниц: 112 с. ил.

Артикул: 2740444

Стоимость: 250 руб.

Содержание
Введение
1 Анализ состояния области
1.1 Оценка систем информационного поиска.
1.2 Предмет оценки
1.2.1 Поисковая система
1.2.2 Наборы данных
1.3 Критерии.
1.3.1 Релевантность .
1.4 Меры, используемые в оценке .
1.4.1 Меры на уровне обработки.
1.4.2 Меры на уровне выхода
1.4.3 Другие меры
1.5 Инструменты измерения
1.5.1 Теоретические подходы
1.5.2 Реальные пользователи
1.5.3 Экспертные оценки
1.5.4 Косвенные оценки.
1.6 Методы оценки
1.6.1 Процедура проведения оценки
1.6.2 Анализ результатов
1.6.3 Методология
1.7 Заключение.
Содержание
2 Теоретические основы предлагаемого подхода
2.1 Основные понятия
2.1.1 Вероятностное представление релевантности.
2.1.2 Относительная релевантность.
2.1.3 Относительная эффективность.
2.2 Используемые метрики .
2.2.1 Требования
2.2.2 Кандидаты.
2.3 Построение оценки относительной эффективности.
2.3.1 Полнота ответа эталонной системы
2.3.2 Оценка относительной релевантности
2.3.3 Сглаживание зависимости вероятности релевантности
от индекса документа в ответе тестируемой системы .
2.4 Построение метапоисковой системы на основе оценки относительной релевантности
3 Инициатива РОМИП
3.1 Организация семинара
3.1.1 Методология оценки
3.1.2 Оргкомитет
3.2 Дорожка по поиску.
3.2.1 Правила проведения
3.2.2 Выбор заданий для оценки
3.2.3 Сбор оценок асессоров.
3.2.4 Таблицы релевантности.
3.2.5 Метрики для вычисления оценок результатов прогонов
3.2.6 Сводные результаты систем.
3.3 Дорожка по классификации
3.4 Наблюдения и планы
4 Экспериментальные исследования
Содержание
4.1 Исследование зависимости относительной релевантности от ранга документа.
4.1.1 Постановка эксперимента
4.1.2 Результаты
4.1.3 Анализ
4.2 Устойчивость характеристик ИПС к изменению входных данных
4.2.1 Постановка эксперимента
4.2.2 Результаты
4.2.3 Анализ
4.3 Оценка относительной эффективности
4.3.1 Постановка эксперимента
4.3.2 Результаты
4.3.3 Анализ
4.4 Метапоисковая система, построенная на основе оценки относительной релевантности .
Заключение
Литература


Несмотря на то, что область оценки имеет почти столь же богатую историю как и сама область поиска (точкой отсчета можно считать вторые Кренфилдские эксперименты г. TREC (Text REtrival Conference) ситуация несколько изменилась. В г. TREC абсолютно не применимы в среде Internet, что показывает “эффективность” тестирования при переносе на другие данные. С тех пор в TREC были добавлены новые коллекции, в том числе Web и VLT, исследованы многие важные проблемы и задачи поиска (многоязыковый поиск, проблема переноса техники поиска на другие языки и т. Предлагаемое исследование маленький шажок в сторону понимания эффектов искажения результатов тестирования при переносе на новые данные. В работе сделана попытка анализа поведения результатов оценки при изменении данных. Так же предложен оригинальный способ автоматического построения оценки системы поиска относительно результатов работы системы с известными характеристиками. Рассмотренный метод имеет значительный потенциал для применения в построении предварительной оценки, так как несравнимо менее требователен к ресурсам (прежде всего человеческим), чем все существующие подходы. Построение описанного метода было невозможно без теоретической поддержки. В работе приведена своя интерпретация понятия релевантности, основанная на вероятностной модели. Еще одной иллюстрацией адекватности предложенной модели релевантности стала эффективность предлагаемого метода построения мета-поисковой системы, основанного на этой модели. Далее работа разделена на пять частей. Первая часть представляет собой анализ существующего состояния дел в области оценки текстового поиска[]. Основной целью этой части является введение в проблематику и обзор принятой на сегодня методологии оценки. Отличительной чертой приведенною анализа является представление большой части известных аспектов оценки в едином каркасе. Во второй части работы приведены основные теоретические выкладки. В этой части многие утверждения приводятся без доказательств (которые приведены отдельно в разделе экспериментов) с целью как можно более краткого и обозримого изложения. Несмотря на свой небольшой объем эта часть содержит большинство результатов работы. Третья часть посвящена экспериментальным данным, использованным для подтверждения теоретических выкладок. В качестве тестовой базы приводимых экспериментов были использованы данные РОМИП’ОЗ (Российский семинар по Оценке Методов Информационного Поиска). К тому же, в рамках работы над диссертацией автор имел возможность принять участие в работе семинара РОМИП (Российский по Оценке Методов Информационного Поиска) в качестве одного из его организаторов. И наряду с другими участниками организационного комитета создавал методологическую базу семинара. Этим фактом так же объясняется использование в работе данных, закрытых для широкого пользователя. Четвертая часть работы представляет собой серию экспериментов, показывающих обоснованность утверждений второй части. Последняя пятая часть посвящена выводам и возможным направлениям дальнейших исследований. Системы информационного поиска и, в частности, системы текстового поиска. Однако четкого общепринятого определения круга систем, относящихся к системам текстового поиска, не существует []. Для целей этого обзора мы будем полагать, что к этой категории относятся системы, удовлетворяющие информационную потребность пользователя предоставлением соответствующих текстовых информационных ресурсов. Практическая значимость систем текстового поиска стимулирует проведение активных исследований в этой области. Для решения одной и той же задачи поиска предложено множество альтернативных подходов, которые для прагматических целей необходимо сравнивать, что и обусловило появление задачи оценки систем текстового поиска. Эта задача имеет долгую историю — широко известные Кренфилдские (СгапйеЫ) эксперименты проводились еще в -х годах прошлого века []. За это время методология оценки систем текстового поиска претерпела значительные изменения, и в этом обзоре мы постараемся описать современное состояние этой области. Оценка — это одна из основных движущих сил, стимулирующих развитие систем текстового поиска.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.221, запросов: 244