论文部分内容阅读
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种信息技术,它融合了数据库、人工智能以及统计学等多种学科,试图从数据库中提取出先前未知、有效和实用的知识。Web数据挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志、页面内容等)中发现用户的浏览模式或寻找相关的Web页面,Web使用模式挖掘主要是对Web日志数据进行分析处理。 关联规则是Web挖掘中一个重要的研究领域。为了挖掘出隐藏在数据间的相互关系,将关联规则的概念引入到Web挖掘系统中,把用户的访问路径以关联规则的形式表现出来。通过挖掘用户的频繁访问路径来重构站点的页面之间的链接关系,以改进Web站点设计使其更适应用户的访问习惯,同时也可以为用户提供个性化的信息服务。所以本文提出的基于粗糙集和单事务项组合的关联规则挖掘算法在Web上的应用具有理论意义和现实意义。 本文主要工作和创新点如下: (1)提出一种新的基于粗糙集和单事务项组合的关联规则挖掘算法。 Apriori算法必须反复地扫描数据库才能求出频繁项集,效率较低,且不支持更新挖掘。为了解决这些问题,提出了一种基于粗糙集、单事务项组合和集合运算的关联规则挖掘算法。本算法只需要扫描一次数据库,同时有效地支持了关联规则的更新挖掘。应用实例和实验结果表明,该算法明显优于Apriori算法,是一种有效且快速的关联规则挖掘算法。 (2)新关联规则挖掘方法在Web挖掘中的应用 将提出的基于粗糙集和单事务项组合的关联规则挖掘方法应用在Web挖掘中,对log日志进行挖掘,分析用户的浏览行为挖掘出频繁访问路径,找出在服务器会话中最经常一起出现的页面。挖掘所得到的规则可以帮助网站设计者重新组织和设计Web站点的结构,也可以作为启发式信息用于缓存中的页面预取,减少用户的下载延迟,缩短用户在网络上的访问延迟,还可以更好的给用户提供推荐服务。