Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах

Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах

Автор: Суриков, Анатолий Георгиевич

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Москва

Количество страниц: 104 с. ил.

Артикул: 4099867

Автор: Суриков, Анатолий Георгиевич

Стоимость: 250 руб.

Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах  Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах 

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
ГЛАВА 1 МЕТОДЫ И АЛГОРИТМЫ УЧЕТА
ССЫЛОЧ1ЮГО ФАКТОРА В ИНФОРМА1ИОННОМ ПОИСКЕ, ИХ ОСОБЕ IIЮСТИ И ОБЛАСТИ ПРИМЕНЕНИЯ
1.1 Введение
1.2 Ссылочный фактор как показатель в
информационном поиске
1.3 Методы и алгоритмы определения показателей
цитируемости электронных документов
1.4 Особенности и области применения
показателей цитируемости электронных документов
1.5 Заключение
ГЛАВА 2 ВЫЧИСЛЕНИЕ ФАКТОРА ЕЯ В НОЙ
ЦИТИРУЕМОСТИ И ЭФФЕКТИВНЫЙ АЛГОРИТМ 1ОИСКА НЕЧЕТКИХ КОПИЙ ДОКУМЕНТОВ
2.1 Введение
2.2 Методы поиска нечетких копий электронных
документов, их анализ и сравнение
2.3 Метод поиска неявных цитат в больших
массивах электронных документов
2.4 Определение порождающего документа в
группе нечетких копий электронных документов
2.5 Метод определения показателя неявной
цитируемости электронных документов
2.6 Заключение
ГЛАВА 3 МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ ЦИТИРУЕМОСТИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
3.1 Введение
3.2 Методы определения показателей
цитируемости электронных документов, метод Кляйиберга
3.3 Фактор неявной цитируемости и его
применение для определения результирующего показателя цитируемости
3.4 Заключение
ГЛАВА 4 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДА
ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЯ ЦИТИРУЕМОСТИ ДОКУМЕНТОВ И ЭКСПЕРИМЕНТАЛЬНЫЕ ЩНКИ
4.1 Введение
4.2 Описание алгоритма определения показателя
неявной цитируемости
4.3 Описание алгоритма определения
результирующего показателя цитируемости
4.4 Оценка временной эффективности и
требований к памяти
4.5 Экспериментальная оценка эффективности
метода определения цитируемости
электронных документов
4.6 Заключение
ЗАКЛЮЧЕНИЕ
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
ВВЕДЕНИЕ
Актуальность


Во-вторых, они слабо защищены от попыток искусственной «накрутки» результирующего показателя, и на емшгу текстовому «спаму» пришел «спам» ссылочный - документы со специально проставленными гиперссылками с авторитетных ресурсов, не содержащие полезной информации в контексте поискового запроса. И, наконец, в-третьих, все популярные реализации расчета показателей цшируемоети документов довольно ресурсоемки. В связи с этим, задачу повышения эффективности методов определения показателен цитируемости документов нужно признать актуальной. Состояние проблемы. При исследовании, разработке и развитии методов и алгоритмов расчета показателей цитируемости документов охватывается широкий круг проблем, связных с оценкой эффективности, оптимизацией вычислительной сложности, информационным поиском и др. Здесь следует отметить значительный вклад отечественных и зарубежных ученых: И. С. НекрестБяпов [-], И. В. Сегаловит [-], Э. Э. Гасанов, В. Б. Кудрявцев [], М. В. Ульянов [-], С. Ильинский, М. Кузьмин, А. Мелков [], S. Brin [9], L. Page [9,], U. A. Z. Broder [], O. A. McBryan [], K. Bharat [8], M. R. Hcnzinger [8], J. M. Kleinberg [,,,], M. S. Manasse [,], S. H. Garcia-Molina [3,,,], N. Sfiivakumar [], P. Dorefan [,], S. Abiteboul [1], В. H. Bagdikian [5], M. Marchiori [], D. Gibson [,]. Существующие публикации по тематике ссылочного ранжирования и цитируемости в информационном поиске посвящены учету факторов «тематичности» и «доверительности»' [,], а также усовершенствованию классического алгоритма PageRank с точки зрения его вычислительной эффективности и устойчивости к искусственным «накруткам» результирующих показателей [8,]. Здесь следует отметить работы Е. А. Трофименко «Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска» []; L. Page, S. Brin «The PageRank citation Ranking: Bringing Order to the Web» []; C. Jtmghoo, R. Sourashis «Impact of search engines on page popularity» []; J. M. Kleinbcrg «Authoritative sources in a hyperlinked environment» []; R. В. Velez, M. Sheldon, C. Manprempre, P. Szilagyf, A. Duda, D. Gifford «А Hierarchical Network Search Engine that Exploits Content-Link Hypertext Clustering» []; E. Spertus «Mining Structural Information on the Web» [], A. Frieze, R. Kaiman, S. Vempala « Fast Monte-Carlo Algorithms foF Finding Low-Rank Approximations »[]. В существующих работах по исследованию задачи повышения эффективности определения показателей цитируемосги документов не учтены факторы неформального или «неявного» цитирования. К »гим относятся гиперссылки с нарушением форматирования, ссылки в неформальной, форме или. Объект исследования. Объектом исследования диссертационной работы являются методы и алгоритмы определения показателей цитируемости электронных документов. Цель работы. Целью работы является повышение эффективности алгоритмического и программного обеспечения для определения показателен цитируемости документов- и учета фактора «неявного» цитирования. Осповпые задачи исследования. Предложен эффективный метод поиска неявных цитат в больших массивах документов (с оценкой О(п)). Разработаны критерии и предложен метод оценки документов в группе нечетких копий для определения порождающего документа. Предложен метод вычисления показателя «неявной» цитируемости. Предложен метод определения показателей цитируемости, основанный на методе Кляйнберга и учитывающий показатель «неявной» цитируемости. Практическая ценность результатов работы. На основе предложенного метода разработано программное обеспечение для. Разработанное программное обеспечение может быть использовано в системах информационного поиска, а также в системах рубрикации и в каталогах электронных документов с целью повышения эффективности ранжирования документов в выдаче. Также данное программное обеспечение может быть использовано с целыо подавления информационно-поискового спама в выдаче ИПСУ так как его важной особенностью является высокая устойчивость определяемых показателей цитируемости к попыткам искусственного влияния извне. Разработанное программное обеспечение было внедрено в эксплуатацию ОАО «Сервис*».

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.188, запросов: 244