Модели и методы представления текстового документа в системах информационного поиска

Модели и методы представления текстового документа в системах информационного поиска

Автор: Губин, Максим Вадимович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Санкт-Петербург

Количество страниц: 89 с. 6 ил.

Артикул: 4064225

Автор: Губин, Максим Вадимович

Стоимость: 250 руб.

Модели и методы представления текстового документа в системах информационного поиска  Модели и методы представления текстового документа в системах информационного поиска 

Задачи информационного поиска. Модель с весами слов. Учет взаимного положения слов. Формирование многословных терминов. Разбиение документа на фрагменты. Гипертекстовые ссылки между документами. Перспективы. Обоснование выбора. Особенности реализации. Скользящее по тексту окно. Обоснование выбора. Реализация информационного поиска с использованием данной модели. Использование индексной информации. Сжатие инвертированного файла. Сжатие постлистов редко встречающихся слов . Вдерсва. Эффективность операций с индексными структурами. Эффективность поиска. Индексирование многоверсионных документов. Реализация. Использование нар. Используемые коллекции. Использование скользящего окна. Результаты. Сжатие инвертированного файла. Характеристики коллекций. Использованные коллекции. Выводы по экспериментальной части. Заключение
параметров. Поэтому, если мы имеем дне системы, использующие два метода, мы не можем напрямую сравнивать их результаты, ведь другие особенности реализации и выбор алгоритма также могут оказывать влияние.


Документ при этом виде поиска обычно определяется как некоторый текст, выделенный его авторо. В информационной системе хранится некоторое представление этого текста, используемое при обработке запроса. Запрос представляет собой осмысленную фразу или набор слов, описывающих информационную потребность. При этом система объединяет документы коллекции в группы, которые содержат схожую информацию. Пользователь ищет информацию, выбирая из относительно небольшого числа кластеров или рубрик. Рубрикация отличается от кластеризации тем, что рубрики, на которые разбиваются документы, заранее задаются пользователем или экспертом, а кластеры формируются системой автоматически при анализе коллекции. Выделение информации из текста x ii. Система производит анализ текстов документов и формирует выдержку из текста или массив текстовых фрагментов, которые, но оценке системы, содержат интересующую пользователя информацию. Широко распространенными и активно развивающимися вариантами этой задачи в настоящее время являются автоматическое аннотирование, когда система формирует краткое содержание большого текста фактографический поиск, когда но названию объекта система возвращает фрагменты с описанием некоторых атрибутов заданного объекта поиск ответа на вопрос, когда запросом является сформулированный на естественном языке вопрос, а система выдаст фрагменты текста, содержащие возможные на него ответы. Это далеко не полный перечень задач, на сегодняшний день постоянно предлагаются и реализуются новые задачи. В последнее время все чаще реализуют смешанные варианты информационною поиска. При сравнении качества информационного поиска необходимо опираться на определенные характеристики исследуемой системы и их изменение 5, . В основе всех методов оценки лежит понятие релевантности, то есть соответствия документа запросу. Факт соответствия имеет субъективный характер, так как может быть установлен только человеком. Для получения более объективных характеристик оценку соответствия делают несколько человек и результат усредняется. Исторически первыми и до сих пор общепринятыми критериями оценки являются полнота и точность ii. Полнота определяется как отношение количества выбранных при поиске документов к общему количеству документов, соответствующих запросу. Точность определяется как отношение количества попавших в результат документов, не соответствующих запросу, к общему количеству выбранных документов. Данные характеристики зависят друг от друга. Увеличение точности, как правило, приводит к снижению полноты и наоборот. Система, которая демонстрирует более высокое качество поиска, в идеальном случае, должна показывать более высокие значения для обеих характеристик. Для сравнительного анализа оценивают значение точности для разных значений полноты. По данным точкам строят так называемый точечный график полнотыточности. Чем выше проходит данный график, тем выше качество информационного поиска, который демонстрирует система. Данные характеристики информационного поиска не являются иаилучшнмн для всех случаев, имеется ряд проблем с их оценкой и том, насколько хорошо они отражают качество работы системы с точки зрения пользователя. Например, в больших коллекциях для пользователя становится важным не то, что система отобрала все документы но запросу часто этот массив физически невозможно просмотреть а то насколько полно освещают интересующий его вопрос первые документы в полученном списке. Однако точность и полнота это стандартные характеристики, которые приводятся практически во всех исследованиях информационного поиска, поэтому они используются и в данной работе. Оценка получается в результате эксперимента на некотором наборе документов и запросов. Результаты, полученные для этих данных, не обязательно повторятся на других. Кроме этого, различные наборы содержат разные представления документа, том самым предопределяя выбор возможных методов реализации информационного поиска. Для решения этой проблемы используются стандартные наборы данных, так называемые коллекции.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.196, запросов: 244