【摘 要】
:
使用Web挖掘技术提取用户访问模式具有重要的现实意义。在用户浏览网页时为用户提供预取服务,在电子商务中为用户推荐商品以及改善网站的组织结构等。然而,在信息爆炸的今天,
论文部分内容阅读
使用Web挖掘技术提取用户访问模式具有重要的现实意义。在用户浏览网页时为用户提供预取服务,在电子商务中为用户推荐商品以及改善网站的组织结构等。然而,在信息爆炸的今天,从网站内容到用户浏览行为都时刻发生着变化。这对网页推荐系统的设计提出了新的要求。推荐系统为了预测用户下一步可能访问的网页,需要向前参考浏览序列。而序列模式考虑了页面浏览序列,因此本文以序列模式相关理论为基础。在基于序列模式的用户浏览模式挖掘相关研究中,比较流行的有基于Markov模型和PLSA模型。本文分析发现这两种模型在适应网站内容和用户浏览行为迅速变化方面都存在不足。本文首先介绍了该领域的国内外研究现状和Web数据挖掘的一般流程。在Web日志数据预处理方面,本文给出了一种过滤日志数据的方法。在网页聚类方面,先分析了现有的各种聚类方法,接着提出了在网站组织结构良好的情况下基于URL的聚类方法包括:基于URL间距离和基于路径树的方法。由于URL间距离的算法不适应动态增长的Web页面结构,本文主要采用的是基于路径树的方法。在序列模式挖掘阶段,本文分析了PLSA方法的不足并提出了RTA算法,此方法基于路径树。随后,本文给出了推荐系统的更新方法。接下来本文分析了用户在访问网站时的使用习惯,并据此给出了网页推荐系统的设计方案。本文最后采用命中率来评价推荐系统,给出了推荐页面数、支持度以及滑动窗口长度与命中率之间的关系。并将实验结果与基于PLSA算法的实验进行了对比,结果表明在一定条件下,RTA算法优于PLSA算法。
其他文献
随着Internet的飞速发展,分布式系统得到了广泛应用,为信息的存储、传递、发布及获取方式带来了重大变革,同时也为数据完整性、非授权访问等安全问题带来了新的威胁。访问控
近年来,根据人类自身的生理特征尤其是人脸特征进行自动检测和识别研究已成为人工智能和计算机图像处理领域的热门研究课题之一。其中,人脸特征研究的重点在于眼睛、嘴巴的检
近十年来,关键字搜索技术一直是数据库、信息检索和数据挖掘领域的研究热点。而当前,图上的关键字搜索由于具有更加广泛的适用性而备受关注。图上的关键字搜索算法与传统的关
软件测试贯穿于软件开发的整个过程,是保证软件质量的重要手段。单元测试是对软件设计的最小单位进行正确性检验,是后续软件开发和测试的保障。所以单元测试既是软件测试的第
随着视频监控的普及和图像数据的海量增长,图像的人工检索与分类已经无法适应需求,这促进了图像分类技术的产生与发展。图像分类的关键技术是提取图像特征信息及其表征。由于
传统的入侵检测大都基于专家系统,缺乏自适应性,对未知攻击的检测能力较弱。而人工免疫系统是一类基于生物免疫系统的功能、原理、特征而建立的用于解决各种复杂问题的计算系
置换流水车间调度问题(Permutation Flow Shop Problem-PFSP),是车间调度领域一个经典的问题,具有重要的理论意义和现实意义。在理论上,该问题代表了一类具有排列性质的组合
随着计算机技术的发展和数码设备的普及,图像的智能操作和编辑技术引起了许多研究人员的兴趣,并逐渐发展成为一个研究热点。图像修复是指用图像中的已知信息修复破损区域或者
随着计算机系统性能的提高,互联网信息的飞速发展,以及企业信息化程度的迅速提高,中文信息资源以极快的速度递增。信息的增加在满足人们对信息需求的同时也给人们快速、准确
蚁群算法(Ant Colony Algorithm, ACA)根据蚂蚁的群体行为特性,模仿自然界中的蚂蚁寻找食物到蚁巢之间最短路径的行为,寻找搜索问题的最优解,是一种新型仿生进化算法;是继模拟