Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Соченков, Илья Владимирович
05.13.17
Кандидатская
2014
Москва
148 с. : ил.
Стоимость:
499 руб.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. МЕТОДЫ КОМПЬЮТЕРНОГО АНАЛИЗА И ИНФОРМАЦИОННОГО ПОИСКА ТЕКСТОВОЙ
ИНФОРМАЦИИ
1.1 Обзор методов компьютерного анализа текстов для
РЕШЕНИЯ ЗАДАЧ ИНФОРМАЦИОННОГО ПОИСКА
1.2 Обзор индексных структур данных и методов
РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА В ИНФОРМАЦИОННОАНАЛИТИЧЕСКИХ И ПОИСКОВЫХ СИСТЕМАХ
1.3 Выводы
1.4 Цель и задачи исследования
ГЛАВА 2. МЕТОД МНОГОКРИТЕРИАЛЬНОЙ ОЦЕНКИ СХОДСТВА ТЕКСТОВ НА ОСНОВЕ ЛЕКСИКОМОРФОЛОГИЧЕСКОЙ, СИНТАКСИЧЕСКОЙ И
СЕМАНТИЧЕСКОЙ ИНФОРМАЦИИ
2.1 Представление текстовой информации в задаче МНОГОКРИТЕРИАЛЬНОЙ ОЦЕНКИ СХОДСТВА ТЕКСТОВ
2.2 Метод оценки сходства текстов
2.3 Применение разработанного метода оценки сходства
текстов для решения поисково-аналитических задач
2.4 Выводы
ГЛАВА 3. МОДЕЛЬ ДАННЫХ, СТРУКТУРЫ ДАННЫХ И АЛГОРИТМЫ РЕШЕНИЯ ПОИСКОВО-АНАЛИТИЧЕСКИХ ЗАДАЧ
3.1 Структуры данных поисковых индексов
3.2 Алгоритмы формирования поисковых индексов
3.3 Представление поискового запроса
3.4 Алгоритмы оценки релевантности и ранжирования результатов информационного поиска
3.5 Выводы
ГЛАВА 4. РЕАЛИЗАЦИЯ И ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДА ОЦЕНКИ СХОДСТВА ТЕКСТОВ, СТРУКТУР ДАННЫХ И , АЛГОРИТМОВ ИНФОРМАЦИОННОГО ПОИСКА
4.1 Программная реализация метода оценки сходства
ТЕКСТОВ, АЛГОРИТМОВ И СТРУКТУР ДАННЫХ ИНФОРМАЦИОННОГО
ПОИСКА
4.2 Экспериментальное исследование метода оценки
СХОДСТВА ТЕКСТОВ, СТРУКТУР ДАННЫХ И АЛГОРИТМОВ
ИНФОРМАЦИОННОГО поиска
4.3 Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ВВЕДЕНИЕ
Актуальность темы исследования. Развитие Интернета привело к росту объёмов доступной информации, которая может быть использована при решении важных задач в ходе научно-исследовательской и экспертной деятельности, для поддержки принятия решений в научно-технической, социальной и других сферах. Анализ этой информации и её использование при принятии стратегических решений даёт преимущество в развитии экономики, науки и технологий. Поисково-аналитическая обработка информации в условиях динамично растущего Интернета не может быть выполнена без автоматизированных информационных систем.
В ранних информационных системах поиск не был полнотекстовым и осуществлялся только по наиболее важным элементам метаданных документов, а аналитические функции сводились к ручной рубрикации и построению тематических каталогов. Такое решение было недостаточно эффективным и качественным и в целом не соответствовало потребностям пользователей, т.к. не позволяло решать более сложные задачи.
Для реализации сервисов текстового поиска в 1960-е годы исследователями были созданы алгоритмы булева поиска (boolean search) [1,2]. Примерно в то же время были разработаны представление текстовой информации в виде векторов в пространстве ключевых слов, а также алгоритмы ранжирования результатов поиска с учётом статистических закономерностей распределения слов [3-6].
Развитие Интернета связано с ростом количества доступной информации и увеличением числа пользователей, заинтересованных в получении этой информации. Для поиска информации и навигации в Интернете были созданы поисковые машины: Yandex, Yahoo, Rambler, Google, Bing. Это привело к развитию технологий поиска информации в Интернете, использующих представление web-страниц в виде векторов признаков, статистические методы и методы машинного обучения. В качестве признаков, влияющих на результат
Таким образом, в предложенном представлении текст описывается множествами различных признаков:
- внетекстовых (теговая разметка, веса вхождений слов);
- лексико-морфологических (нормальные формы лексем, формы словоупотреблений);
- синтаксических (словосочетания, представленные именными и глагольными группами);
- семантических (значения синтаксем и семантические связи).
Пусть задан эталонный текст є єЕ и сопоставляемый с ним текст т еЕ. Определим функционал, оценивающий сходство текстов є и г в рамках описанного выше представления текстовой информации.
Оценку близости текстов будем проводить по множествам предложений этих текстов: Б* и 5Г соответственно. Выберем два произвольных
предложения и эг є 5Г. Рассмотрим множество
что первый элемент пары входит в состав предложения эталонного текста з£, а второй элемент входит в предложение б сопоставляемого текста, и при этом оба эти словоупотребления совпадают по нормальной форме с? лексемы. Такие словоупотребления будем называть соответственными. Сопоставление предложений и бг производится путём рассмотрения соответственных словоупотреблений, составляющих множество N^,3^.
Рассмотрим критерии оценки сходства предложений э£ ив'.
1. Покрытие предложения-эталона б£ предложением зТ сопоставляемого текста т:
2.2 Метод оценки сходства текстов
<№с,сі>єд£&<-н>т,сІ >є5г| - суть множество пар словоупотреблений, таких
Название работы | Автор | Дата защиты |
---|---|---|
Объектно-структурные модели представления и обработки информации по эксплуатации технических средств МЧС | Молодцова, Юлия Владимировна | 2014 |
Методы повышения эффективности применения технологий широкополосного доступа на железнодорожном транспорте | Юрченко, Денис Юрьевич | 2007 |
Восстановление линейных зависимостей по неточной информации | Волков, Владимир Викторович | 2011 |