【摘 要】
:
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web使用挖掘就是其中一个重要的分支。Web使用挖掘通过对Web日志的分析,获取Web上隐藏的用户感兴趣的
论文部分内容阅读
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web使用挖掘就是其中一个重要的分支。Web使用挖掘通过对Web日志的分析,获取Web上隐藏的用户感兴趣的信息,为用户提供个性化服务、信息导航,并对网站结构的改进与优化提供依据。Web使用挖掘分为数据采集、数据预处理、模式发现与模式分析四个阶段,其中数据预处理和模式发现是本文研究的重点。首先,数据预处理是Web使用挖掘的一个难点。它分为数据清洗、会话识别、路径补充、事务识别四个阶段。本文在会话识别阶段,提出了基于DFA方式的会话识别。在路径补充阶段,提出了一种基于多窗口方式的路径补充。并在此基础上,构造了可用于动态框架网站会话识别的SRDFA。在事务识别阶段,本文改进了事务识别方法中的最大向前路径法,在事务识别阶段记录可能需要添加的超链接。其次,模式发现也是一个重要的阶段。在这个阶段中,本文给出了一种改进的Apriori算法(RSApriori算法)。它通过自上而下的方式从最大频繁项集开始挖掘,直到挖掘出用户需要的频繁项集后终止。此外,本文设计了两个验证性实验,证明了整个处理框架的可行性。最后,本文将整个处理方法运用于一个真实的MVC模式下的struts框架网站,在实践中证明了此方法的有效性和实用性。本文对Web使用挖掘部分算法的改进具有一定的现实意义。首先,它对会话识别和事务分割方法的研究以及部分数据挖掘算法的改进具有一定的参考价值,在一定程度上推动了Web使用挖掘算法的研究;其次,它也促进了Web访问行为分析、网站结构分析和网站结构优化等方面的研究。
其他文献
从能量控制来看,ZigBee网络节能机制的提出及相关的性能分析评价,如何降低网络能量消耗,提高能量效率,如何避免因节点能量过度消耗而导致的节点过早死亡、如何延长网络分割时
随着网络技术与压缩技术的发展,人们可以方便快捷地复制和传输各种数字视频。如何对大量的数字视频进行有效的版权保护成为一个迫切需要解决的问题,视频数字水印技术为这一问题
伴随着数据规模的急剧增长,集中式数据库在存储和计算等方面的局限性日趋显著,数据管理向分布式发展已成为趋势。为了对目前广泛应用的MySQL、PostGreSQL等开源数据库提供分
随着计算机技术、数字图像处理技术以及微电子技术的飞速发展,以FPGA为核心的图像处理系统已被广泛的应用在各个领域当中。本文以FPGA作为平台对视觉计算中的印刷体数字识别
随着高等教育的不断发展,高校数字化校园已经发展成为学院重要的组成部分,在现阶段高校数字化校园中,信息资源是最重要的资源,能否拥有及时、准确、全面的信息已经成为衡量一
Web服务作为新一代基础平台技术,已经得到了广泛的研究和应用。它一改传统的面向过程、面向对象和面向构件的软件开发方式,逐渐成为网络分布计算、互操作和协作领域新的里程
互联网时代,web中的文本数量和访问这些文档的人数一直在海量增加,对这些数量巨大的文本信息,人们要想找出一些相关主题的内容,仅靠人工的分类方法已经不能符合实际需要了。
随着信息技术的不断发展,信息推送技术成为了即时发布和获取信息的一种重要方式。它不同于传统的信息拉取方式,能够将信息主动实时推送给用户,满足人们及时获取有用信息的需
随着移动终端和地理位置服务的普及,互联网用户的位置信息更容易被获得和积累。分析潜藏在大量用户数据中的区域信息能使企业更好地实现资源管理、人员分配和服务站点建设,减
随着信息社会的发展,互联网上的信息飞速的增长并开始呈现出复杂性和多样性。这时传统的基于关键字的信息检索技术再也不能满足人们的信息查询需求。其问题主要表现在,传统的