Методы группировки и структуризации поисковых запросов и их реализация

Методы группировки и структуризации поисковых запросов и их реализация

Автор: Киселёва, Юлия Евгеньевна

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Санкт-Петербург

Количество страниц: 99 с. ил.

Артикул: 4933698

Автор: Киселёва, Юлия Евгеньевна

Стоимость: 250 руб.

Методы группировки и структуризации поисковых запросов и их реализация  Методы группировки и структуризации поисковых запросов и их реализация 

Оглавление
Оглавление.
Глава 1. Методы анализа поисковых запросов пользователей
1.1 Модели информационного поиска.
1.1.1 Векторная модель
1.1.2 Вычисление веса слова.
1.2 Тестовые наборы данных
1.2.1 i
1.3 Метрики качества
1.4 Лабораторная парадигма оценки.
1.4.1 Метод общего котла i
1.4.2 Характеристики котлов.
1.5 Определение групп пользователей по интересам
1.5.1 Персонализация информации.
1.5.2 Поиск шаблонов в поведении пользователей
1.5.3 Выявление групп пользователей.
1.6 Вероятностные модели на графах
1.6.1 Представление графовой модели.
1.6.2 Ориентированные модели на графах
1.6.2.1 Скрытая Марковская Модель i v
1.6.3 Неориентированные модели на графах
1.6.3.1 Условные случайные поля ii i
1.7
Глава 2. Группировка пользователей по интересам.
2.1 Классификация поисковых запросов.
2.2 Метрики для определения близких пользователей.
2.2.1 Усредненная мера близости УМБ
2.2.2 Максимизированная мера близости ММБ
2.3 Набор данных для эксперимента.
2.4 Очистка данных
2.5 Полученные результаты.
2.6 Выводы
Глава 3. Сегментация запросов
3.1 Понятие сегментации запросов о продуктах
3.2 Обзор существующих методов сегментации запросов.
3.3 Требования к разрабатываемой системе сегментации запросов
3.4 Автоматическое маркирование запросов
3.4.1 Метод составления автоматически промаркированных запросов.
3.4.2 Словарь брендов, их синонимов и сокращений.
3.4.3 Уменьшение разреженности в обучающем множестве.
3.4.4 Критерий составления обучающего множества
3.5 Метод для создания синтетических запросов.
3.6 Реализация системы для автоматического составления обучающего
множества
3.6.1 Подробное описание реализованной системы.
3.6.2 Нормализация данных
3.6.2.1 Нормализация базы данных продуктов
3.6.2.2 Нормализация запросов.
3.7 Обучение модели сегментации.
3.7.1 Модель УСП для сегментации запросов
3.7.2 Целевые атрибуты.
3.7.3 Признаки для модели УСП
3.8 Постановка эксперимента.
3.8.1 Критерии оценки.
3.8.1.1 Метрики
3.8.1.2 Описание входных данных
3.8.1.3 Множество для оценивания качества результатов
3.9 Анализ результатов
3.9.1 Оценка метода автоматического маркирования запросов.
3.9.2 Оценка качества для метода сегментации запросов.
3.9.2.1 Описание базового метода сегментации запросов
3.9.2.2 Описание улучшенных методов сегментации запросов.
3.9.2.3 Выбор порога уровня доверия для предсказаний метода
сегментации
3.9.2.4 Результаты оценки методов сегментации запросов.
3. Выводы.
Заключение
Библиография


Оценка метода автоматического маркирования запросов. Оценка качества для метода сегментации запросов. Описание «улучшенных» методов сегментации запросов. Результаты оценки методов сегментации запросов. Выводы. Исследованиям в области анализа поисковых запросов уделяется много внимания в последние годы. Данные факторы приводят к тому, что пользователи все чаще прибегают к поиску нужной им информации в интернете, и свои потребности они формулируют в виде запросов с «ключевыми словами» (keyword queries), и, как следствие, объем обрабатываемых поисковых запросов значительно увеличивается каждый год. В результате накапливаются большие по объему журналы, содержащие поисковые запросы пользователей (search query logs). Однако. Запросы пользователей важнейшая для владельцев интернет-ресурсов информация. Так как выводы, полученные путем анализа поисковых запросов, потенциально могут улучшить качество поиска, так как они помогают лучше понять интересы пользователей. И с учетом полученных знаний поисковые машины (search engine) будут показывать наиболее релевантные пользователю документы. Одной из основных проблем анализа поисковых запросов является неоднозначность (ambiguity) используемых в них слов. Один из классических примеров подобной неоднозначности является запрос “jaguar”. Если же мы обладаем знаниями об интересах пользователя, который ввел неоднозначный запрос, мы легко сможем определить, какого рода информацию он хотел узнать. Также большое внимание уделяется методам, которые позволяют преобразовывать неструктурированный запрос пользователя с «ключевыми словами» (keyword queries) в структурированный. Основная причина популярности подобных методов заключается в том, что большая часть интернет-данных изначально содержатся в структурированных базах данных. И знание структуры запроса значительно облегчает поиск релевантных ответов. Для обучения модели анализа запросов, которая получает из запроса структуру, необходимо составить обучающее множество, в котором каждый запрос описывается векторами признаков (feature vector) или просто признаками- наборами числовых параметров, отражающих свойства характеристик запроса. Вектора признаков принимают значения в пространстве признаков. Задав метрику в подобном пространстве, можно сравнивать запросы друг с другом, вычисляя расстояние между соответствующими им векторами. Методы для создания обучающего множества и построения векторов признаков являются ядром любой системы анализа запросов. Качество системы анализа поисковых запросов в основном зависит от выбора обучающего множества и признаков, а также метрик для их сравнения. Традиционным подходом для создания системы анализа запросов является обучение «сучителем» (supervised learning), но данный метод представляется достаточно трудоемким и дорогостоящим, так как требует обучающего множества, составленного вручную. В настоящее время существуют огромные объемы данных, которые содержат журналы щелчков пользователей. И естественно предположить, что на основе этих данных есть возможность создать обучающее множество автоматически, без использования работы асессоров, составляющих обучающее множество вручную. Данная концепция получила название обучение «без учителя» (unsupervised learning). Основной целью работы является создание высокоэффективных, с точки зрения качества результата, методов обучения «без учителя» для построения систем анализа поисковых запросов. Разработка эффективной метрики, базирующейся на журналах запросов, которая будет служить инструментом для нахождения групп пользователей, характеризующихся похожими интересами. Разработка метода для автоматического построения обучающего множества, которая обуславливается желанием не использовать дорогостоящие и трудоемкие методы составления обучающего множества вручную. Автоматический метод в качестве входных данных должен использовать только журналы щелчков пользователей (user clicks logs) и базу данных с описанием продуктов (product data base), которые ищут и на которые щелкают пользователи.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.209, запросов: 244