Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Салин, Владимир Сергеевич
05.13.18
Кандидатская
2015
Саратов
100 с. : ил.
Стоимость:
499 руб.
Глава 1.Модели и методы кластеризации гипертекстовых структур
1.1. Общая характеристика проблемы кластеризации веб-документов
1.2. Задача семантической кластеризации гипертекстовых документов
1.3. Традиционные методы семантической кластеризации документов
1.4. Подходы к моделированию гипертекстовой структуры для ее кластеризации
Глава 2.Разработка модели семантической кластеризации гипертекстовой структуры с использованием статистики переходов
2.1. Сбор данных о действиях пользователей на веб-сайте
2.2. Моделирование поведения пользователей в гипертексте
2.3. Семантическая кластеризация.. гипертекстовой структуры с учётом статистики переходов
Глава З.Разработка программного комплекса для кластеризации гипертекста с использованием статистики переходов
3.1. Требования к программной системе
3.2. Общая архитектура ср^темы
3.3. Реализация программной системы
Глава 4.Методика оценки эффективности семантической кластеризации гипертекста
4.1. Разработка методики оценки эффективности
4.2. Оценка эффективности разработанного метода семантической кластеризации на реальных веб-сайтах
4.3. Практические рекомендации к подбору входных параметров модели и ограничения её применения
Заключение
Список литературы
Приложения
Приложение А. Реализация алгоритма построения графа веб-сайта
Приложение Б. Реализация алгоритма расчёта метрик Precision, Recall и Fmeasure
Приложение В. Примеры запроса к серверу статистики Google Analytics и ответа от него
Приложение Г. Динамика изменения размера взвешенных графов веб-сайтов sstu.ru, rauseum.seun.ru, aksw.org при повышении порогового значения веса
Актуальность темы исследования. Получение актуальной информации через сеть Интернет в последнее время является важной потребностью информационного общества. Широко известные поисковые системы, такие как Google, Яндекс, Bing, Yahoo!, стали входной точкой для доступа к информации миллионов веб-сайтов для многих пользователей.
Вместе с тем, объемы информации, представленной в сети Интернет, постоянно растут, экспоненциально увеличивается количество веб-сайтов в сети. Обработка больших объемов информации с целью эффективного извлечения требующихся данных предполагает использование специализированных программных средств поиска и интеллектуального анализа, данных, а также современных подходов к структуризации, группировке, построению метаописания (Н. Шедболт, В. Холл, Т. Бернерс-Ли [93]). ,
На предварительных этапах обработки данных в Вебе, различные программные системы применяют подход с группированием веб-документов общей тематики, который принято называть семантической кластеризацией. Данное понятие широко используется в области лингвистики при сопоставлении текстов естественного,,„язгща. , и.„щс,, анализа ,на предмет семантической эквивалентности (Михайлов Д.В. и Емельянов Г.М. [11]). С другой стороны, семантическая кластеризация веб-документов является подзадачей,более общей задачи кластеризации данных.
Широкое распространение кластеризация данных получила с развитием подходов к интеллектуальному анализу массивов данных ближе к концу XX века, сформировав отдельное направление кластерного анализа. Теоретические и методологические основы на данном направлении заложены в, результатах исследований многих отечественных и зарубежных авторов, включая Б. Дюрана и П. Оделла [5], И. Д. Манделя [10], С. А. Айвазяна [1], Д. С. Хайдукова [31] и других. Анализируя современные тенденции в данной области, В. С. Бериков и Г. С
переходов. Графовая модель получается обратным преобразованием из ЕЯ-модели хранилища; информация о статистике посещений поступает из компонента (С). Результатом работы компонента (Б), как и результатом работы всей системы, являются множество кластеров веб-страниц сайта, представленных в файле СБУ-формата.
Взаимодействие компонентов системы для выполнения семантической кластеризации указанного веб-сайта, как основного сценария использования, можно представить в виде следующего, алгоритма А1.
Алгоритм А1. Автоматизированная семантическая кластеризация сайта. Вход: И - ТЖЬ веб-ресурса;
Выход: X - множество кластеров веб-страниц;
Начало алгоритма
1) Анализатор (компонент А) устанавливает подключение к ресурсу ГГ и начинает процесс его сканирования;
2) Полученная в результате сканирования графовая модель гипертекстовой структуры ресурса ГГ представляется в виде ЕЯ-модели и записывается в хранилище (компонент В);
3) Компонент Б подготавливает ЕЯ-модель в необходимом формате для кластеризации;
4) Модуль обработки статистики С получает данные о переходах пользователей;
5) На основании данных, компонент Б выполняет разбиение на кластеры;
6) Компонент Б оформляет результаты кластеризации в виде множества X и записывает их в файл.
Конец алгоритма
Алгоритм А1 взят за основу для реализации дополнительных требований к системе. Для сопоставления различных алгоритмов кластеризации графов, в компонент Б могут подключаться соответствующие реализации таких алгоритмов.
Название работы | Автор | Дата защиты |
---|---|---|
Численное исследование напряженно-деформированного состояния в окрестности сдвиговых трещин и отверстий в геоматериалах | Устюжанова, Алла Владимировна | 2012 |
Построение и исследование дискретной математической модели безынерционных пространственных эффектов в волновых полях конечной амплитуды | Чистякова, Татьяна Алексеевна | 2010 |
Моделирование дискретно-непрерывных систем с высокой гетерогенностью применительно к системе гемопоэза человека | Русинов Михаил Анастасович | 2015 |