Диссертация на тему "Реляционно-ситуационные структуры данных, методы и алгоритмы решения поисково-аналитических задач", скачать бесплатно автореферат по специальности 05.13.17

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. МЕТОДЫ КОМПЬЮТЕРНОГО АНАЛИЗА И ИНФОРМАЦИОННОГО ПОИСКА ТЕКСТОВОЙ
ИНФОРМАЦИИ
1.1 Обзор методов компьютерного анализа текстов для
РЕШЕНИЯ ЗАДАЧ ИНФОРМАЦИОННОГО ПОИСКА
1.2 Обзор индексных структур данных и методов
РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА В ИНФОРМАЦИОННОАНАЛИТИЧЕСКИХ И ПОИСКОВЫХ СИСТЕМАХ
1.3 Выводы
1.4 Цель и задачи исследования
ГЛАВА 2. МЕТОД МНОГОКРИТЕРИАЛЬНОЙ ОЦЕНКИ СХОДСТВА ТЕКСТОВ НА ОСНОВЕ ЛЕКСИКОМОРФОЛОГИЧЕСКОЙ, СИНТАКСИЧЕСКОЙ И
СЕМАНТИЧЕСКОЙ ИНФОРМАЦИИ
2.1 Представление текстовой информации в задаче МНОГОКРИТЕРИАЛЬНОЙ ОЦЕНКИ СХОДСТВА ТЕКСТОВ
2.2 Метод оценки сходства текстов
2.3 Применение разработанного метода оценки сходства
текстов для решения поисково-аналитических задач
2.4 Выводы
ГЛАВА 3. МОДЕЛЬ ДАННЫХ, СТРУКТУРЫ ДАННЫХ И АЛГОРИТМЫ РЕШЕНИЯ ПОИСКОВО-АНАЛИТИЧЕСКИХ ЗАДАЧ
3.1 Структуры данных поисковых индексов
3.2 Алгоритмы формирования поисковых индексов
3.3 Представление поискового запроса
3.4 Алгоритмы оценки релевантности и ранжирования результатов информационного поиска
3.5 Выводы
ГЛАВА 4. РЕАЛИЗАЦИЯ И ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДА ОЦЕНКИ СХОДСТВА ТЕКСТОВ, СТРУКТУР ДАННЫХ И , АЛГОРИТМОВ ИНФОРМАЦИОННОГО ПОИСКА

4.1 Программная реализация метода оценки сходства
ТЕКСТОВ, АЛГОРИТМОВ И СТРУКТУР ДАННЫХ ИНФОРМАЦИОННОГО
ПОИСКА
4.2 Экспериментальное исследование метода оценки
СХОДСТВА ТЕКСТОВ, СТРУКТУР ДАННЫХ И АЛГОРИТМОВ
ИНФОРМАЦИОННОГО поиска
4.3 Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ВВЕДЕНИЕ
Актуальность темы исследования. Развитие Интернета привело к росту объёмов доступной информации, которая может быть использована при решении важных задач в ходе научно-исследовательской и экспертной деятельности, для поддержки принятия решений в научно-технической, социальной и других сферах. Анализ этой информации и её использование при принятии стратегических решений даёт преимущество в развитии экономики, науки и технологий. Поисково-аналитическая обработка информации в условиях динамично растущего Интернета не может быть выполнена без автоматизированных информационных систем.
В ранних информационных системах поиск не был полнотекстовым и осуществлялся только по наиболее важным элементам метаданных документов, а аналитические функции сводились к ручной рубрикации и построению тематических каталогов. Такое решение было недостаточно эффективным и качественным и в целом не соответствовало потребностям пользователей, т.к. не позволяло решать более сложные задачи.
Для реализации сервисов текстового поиска в 1960-е годы исследователями были созданы алгоритмы булева поиска (boolean search) [1,2]. Примерно в то же время были разработаны представление текстовой информации в виде векторов в пространстве ключевых слов, а также алгоритмы ранжирования результатов поиска с учётом статистических закономерностей распределения слов [3-6].
Развитие Интернета связано с ростом количества доступной информации и увеличением числа пользователей, заинтересованных в получении этой информации. Для поиска информации и навигации в Интернете были созданы поисковые машины: Yandex, Yahoo, Rambler, Google, Bing. Это привело к развитию технологий поиска информации в Интернете, использующих представление web-страниц в виде векторов признаков, статистические методы и методы машинного обучения. В качестве признаков, влияющих на результат

Таким образом, в предложенном представлении текст описывается множествами различных признаков:
- внетекстовых (теговая разметка, веса вхождений слов);
- лексико-морфологических (нормальные формы лексем, формы словоупотреблений);
- синтаксических (словосочетания, представленные именными и глагольными группами);
- семантических (значения синтаксем и семантические связи).
Пусть задан эталонный текст є єЕ и сопоставляемый с ним текст т еЕ. Определим функционал, оценивающий сходство текстов є и г в рамках описанного выше представления текстовой информации.
Оценку близости текстов будем проводить по множествам предложений этих текстов: Б* и 5Г соответственно. Выберем два произвольных
предложения и эг є 5Г. Рассмотрим множество
что первый элемент пары входит в состав предложения эталонного текста з£, а второй элемент входит в предложение б сопоставляемого текста, и при этом оба эти словоупотребления совпадают по нормальной форме с? лексемы. Такие словоупотребления будем называть соответственными. Сопоставление предложений и бг производится путём рассмотрения соответственных словоупотреблений, составляющих множество N^,3^.
Рассмотрим критерии оценки сходства предложений э£ ив'.
1. Покрытие предложения-эталона б£ предложением зТ сопоставляемого текста т:
2.2 Метод оценки сходства текстов
<№с,сі>єд£&<-н>т,сІ >є5г| - суть множество пар словоупотреблений, таких

Название работы	Автор	Дата защиты
Исследование методов, разработка моделей и алгоритмов формирования элементов знаковой картины мира субъекта деятельности	Панов, Александр Игоревич	2015
Восстановление линейных зависимостей по неточной информации	Волков, Владимир Викторович	2011
Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа	Шелманов, Артем Олегович	2015

Электронная библиотека диссертаций

Реляционно-ситуационные структуры данных, методы и алгоритмы решения поисково-аналитических задач

Рекомендуемые диссертации данного раздела