Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Заикин, Данила Александрович
05.13.11
Кандидатская
2014
Казань
125 с. : ил.
Стоимость:
499 руб.
Оглавление
Введение
Глава 1. Обзор литературы
1.1. Автоматическое извлечение терминологии
1.2. Использование терминологии в поисковых системах
1.3. Математически-ориентированные поисковые системы
1.4. Поиск по научным статьям
1.5. Выводы к первой главе
Глава 2. Автоматическое извлечение терминологии
2.1. Выбор метода автоматического извлечения терминологии
2.2. Автоматическое извлечение терминологии
2.3. Словари
2.4. Алгоритм автоматизированного построения словарей
2.5. Морфологический анализ
2.6. Ручное построение словарей
2.7. Автоматическое построение словарей
2.8. Практическая реализация автоматического извлечения терминологии
2.9. Использование контекста для выделения терминологических словосочетаний
2.10. Обработка дефисов при выделении специальной лексики
2.11. Выводы ко второй главе
Глава 3. Организация поиска
3.1. Формальная постановка задачи
3.2. Архитектура системы
3.3. Метаданные статей
3.4. Ранжирующие функции
3.5. Формирование XML-файла для Soir
3.6. Обработка запроса
3.7. Выводы к третьей главе
Глава 4. Оценки ключевых характеристик информационно-поисковой системы
4.1. Оценки сложности используемых алгоритмов
4.2. Оценки качества информационного поиска
4.3. Выводы к четвертой главе
Заключение
Список литературы
Приложение А. Таблицы
Введение
Актуальность темы исследования. Взрывообразный рост разнообразных публикаций в сети Интернет приводит к тому, что постоянно повышаются требования к информационно-поисковым системам [1]. Актуальность исследований в области информационного поиска также обусловлена тем, что при поиске информации в сети Интернет число документов, возвращаемых на запрос пользователя, как правило, получается очень большим за счет огромного числа нерелевантных документов, попавших в отклик. Например, в работе Чуна отмечается, что Google, фокусируясь на релевантности первых результатов, мало заботится о числе ответов и качестве низкоранжированных документов [2].
Однако для небольших текстовых корпусов, таких как литература по узкой специальности или архивы статей журналов, подход, ограничивающийся улучшением только первых результатов неприменим по причине малого общего числа документов в отклике [3]. В таком случае часто возникает ситуация, в которой пользователь поисковой системы просматривает все выданные ему результаты. Из-за этого исследователям приходится принимать во внимание точность всей выдачи поисковика, не имея возможности переложить решение проблемы на ранжирование.
В последние годы появились многочисленные поисковые сервисы, стремящиеся усовершенствовать поисковые технологии, выходя за рамки стандартного поиска по ключевым словам [4, 5]. Разработчики поисковых систем стали использовать более сложные модели представления документов для наиболее эффективного использования имеющихся в нем данных [6, 7].
Одним из направлений подобных исследований является использование специальной лексики (терминов или терминологических словосочетаний, которые в дальнейшем понимаются как синонимы) предметных областей для улучшения качества поиска [8, 9].
Рис. 2.2. Зависимость размера словаря терминов по теории кодирования от количества обработанных слов
Рис. 2.3. Зависимость размера словаря общей лексики от количества обработанных слов
Название работы | Автор | Дата защиты |
---|---|---|
Модели и механизмы для автоматизации программирования косвенного взаимодействия агентов интеллектуальных пространств | Ломов, Александр Андреевич | 2014 |
Методы управления ресурсами в проблемно-ориентированных распределенных вычислительных средах | Шамакина, Анастасия Валерьевна | 2014 |
Методы и алгоритмы обработки изображений в системе телевизионного контроля тепловыделяющих сборок водо-водяного энергетического реактора | Хисамутдинов, Максим Владимирович | 2012 |