+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Разработка математических моделей и методов семантической кластеризации гипертекстовых структур на основе учёта статистики переходов пользователей

  • Автор:

    Салин, Владимир Сергеевич

  • Шифр специальности:

    05.13.18

  • Научная степень:

    Кандидатская

  • Год защиты:

    2015

  • Место защиты:

    Саратов

  • Количество страниц:

    100 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Глава 1.Модели и методы кластеризации гипертекстовых структур
1.1. Общая характеристика проблемы кластеризации веб-документов
1.2. Задача семантической кластеризации гипертекстовых документов
1.3. Традиционные методы семантической кластеризации документов
1.4. Подходы к моделированию гипертекстовой структуры для ее кластеризации
Глава 2.Разработка модели семантической кластеризации гипертекстовой структуры с использованием статистики переходов
2.1. Сбор данных о действиях пользователей на веб-сайте
2.2. Моделирование поведения пользователей в гипертексте
2.3. Семантическая кластеризация.. гипертекстовой структуры с учётом статистики переходов
Глава З.Разработка программного комплекса для кластеризации гипертекста с использованием статистики переходов
3.1. Требования к программной системе
3.2. Общая архитектура ср^темы
3.3. Реализация программной системы
Глава 4.Методика оценки эффективности семантической кластеризации гипертекста
4.1. Разработка методики оценки эффективности
4.2. Оценка эффективности разработанного метода семантической кластеризации на реальных веб-сайтах
4.3. Практические рекомендации к подбору входных параметров модели и ограничения её применения
Заключение
Список литературы
Приложения
Приложение А. Реализация алгоритма построения графа веб-сайта
Приложение Б. Реализация алгоритма расчёта метрик Precision, Recall и Fmeasure
Приложение В. Примеры запроса к серверу статистики Google Analytics и ответа от него
Приложение Г. Динамика изменения размера взвешенных графов веб-сайтов sstu.ru, rauseum.seun.ru, aksw.org при повышении порогового значения веса
Актуальность темы исследования. Получение актуальной информации через сеть Интернет в последнее время является важной потребностью информационного общества. Широко известные поисковые системы, такие как Google, Яндекс, Bing, Yahoo!, стали входной точкой для доступа к информации миллионов веб-сайтов для многих пользователей.

Вместе с тем, объемы информации, представленной в сети Интернет, постоянно растут, экспоненциально увеличивается количество веб-сайтов в сети. Обработка больших объемов информации с целью эффективного извлечения требующихся данных предполагает использование специализированных программных средств поиска и интеллектуального анализа, данных, а также современных подходов к структуризации, группировке, построению метаописания (Н. Шедболт, В. Холл, Т. Бернерс-Ли [93]). ,
На предварительных этапах обработки данных в Вебе, различные программные системы применяют подход с группированием веб-документов общей тематики, который принято называть семантической кластеризацией. Данное понятие широко используется в области лингвистики при сопоставлении текстов естественного,,„язгща. , и.„щс,, анализа ,на предмет семантической эквивалентности (Михайлов Д.В. и Емельянов Г.М. [11]). С другой стороны, семантическая кластеризация веб-документов является подзадачей,более общей задачи кластеризации данных.
Широкое распространение кластеризация данных получила с развитием подходов к интеллектуальному анализу массивов данных ближе к концу XX века, сформировав отдельное направление кластерного анализа. Теоретические и методологические основы на данном направлении заложены в, результатах исследований многих отечественных и зарубежных авторов, включая Б. Дюрана и П. Оделла [5], И. Д. Манделя [10], С. А. Айвазяна [1], Д. С. Хайдукова [31] и других. Анализируя современные тенденции в данной области, В. С. Бериков и Г. С

переходов. Графовая модель получается обратным преобразованием из ЕЯ-модели хранилища; информация о статистике посещений поступает из компонента (С). Результатом работы компонента (Б), как и результатом работы всей системы, являются множество кластеров веб-страниц сайта, представленных в файле СБУ-формата.
Взаимодействие компонентов системы для выполнения семантической кластеризации указанного веб-сайта, как основного сценария использования, можно представить в виде следующего, алгоритма А1.
Алгоритм А1. Автоматизированная семантическая кластеризация сайта. Вход: И - ТЖЬ веб-ресурса;
Выход: X - множество кластеров веб-страниц;
Начало алгоритма
1) Анализатор (компонент А) устанавливает подключение к ресурсу ГГ и начинает процесс его сканирования;
2) Полученная в результате сканирования графовая модель гипертекстовой структуры ресурса ГГ представляется в виде ЕЯ-модели и записывается в хранилище (компонент В);
3) Компонент Б подготавливает ЕЯ-модель в необходимом формате для кластеризации;
4) Модуль обработки статистики С получает данные о переходах пользователей;
5) На основании данных, компонент Б выполняет разбиение на кластеры;
6) Компонент Б оформляет результаты кластеризации в виде множества X и записывает их в файл.
Конец алгоритма
Алгоритм А1 взят за основу для реализации дополнительных требований к системе. Для сопоставления различных алгоритмов кластеризации графов, в компонент Б могут подключаться соответствующие реализации таких алгоритмов.

Рекомендуемые диссертации данного раздела

Время генерации: 0.146, запросов: 967