新关联规则挖掘算法在WEB挖掘上的研究和应用

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:zmdwfh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种信息技术,它融合了数据库、人工智能以及统计学等多种学科,试图从数据库中提取出先前未知、有效和实用的知识。Web数据挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志、页面内容等)中发现用户的浏览模式或寻找相关的Web页面,Web使用模式挖掘主要是对Web日志数据进行分析处理。  关联规则是Web挖掘中一个重要的研究领域。为了挖掘出隐藏在数据间的相互关系,将关联规则的概念引入到Web挖掘系统中,把用户的访问路径以关联规则的形式表现出来。通过挖掘用户的频繁访问路径来重构站点的页面之间的链接关系,以改进Web站点设计使其更适应用户的访问习惯,同时也可以为用户提供个性化的信息服务。所以本文提出的基于粗糙集和单事务项组合的关联规则挖掘算法在Web上的应用具有理论意义和现实意义。  本文主要工作和创新点如下:  (1)提出一种新的基于粗糙集和单事务项组合的关联规则挖掘算法。  Apriori算法必须反复地扫描数据库才能求出频繁项集,效率较低,且不支持更新挖掘。为了解决这些问题,提出了一种基于粗糙集、单事务项组合和集合运算的关联规则挖掘算法。本算法只需要扫描一次数据库,同时有效地支持了关联规则的更新挖掘。应用实例和实验结果表明,该算法明显优于Apriori算法,是一种有效且快速的关联规则挖掘算法。  (2)新关联规则挖掘方法在Web挖掘中的应用  将提出的基于粗糙集和单事务项组合的关联规则挖掘方法应用在Web挖掘中,对log日志进行挖掘,分析用户的浏览行为挖掘出频繁访问路径,找出在服务器会话中最经常一起出现的页面。挖掘所得到的规则可以帮助网站设计者重新组织和设计Web站点的结构,也可以作为启发式信息用于缓存中的页面预取,减少用户的下载延迟,缩短用户在网络上的访问延迟,还可以更好的给用户提供推荐服务。
其他文献
电能,已成为人类社会赖以生存和发展不可或缺的一种重要能源,人类几乎所有的活动都与电有密切的关系。随着科学技术的飞速发展和工业规模的不断扩大,一方面,电力用户对电能质
信息技术的发展为社会带来了革命性的变化。许多的多媒体技术为现在的研究带来了新的挑战和机遇。对数字产品版权保护、保证信息安全已是现代产权,版权保护和信息认证的核心问
目前,各行业普遍存在“信息孤岛”现象,造成系统之间数据难以共享。为打破这种局面,各大油田按照“六个统一”的原则积极构建数字油田,各行各业也在构建自己的数据仓库中心和
在当今社会,信息化手段成为了促进一个产业现代化建设的基础支撑。资源的信息化和信息资源在一个产业相关链条中的畅通传播和深度共享,以及为实现资源共享,该链条中各实体之间的
数字图像已经广泛的应用在人们的日常生活中,而图像处理技术却为图像信息安全提出了挑战。检测图像是否被恶意篡改、保证图像信息的完整与健壮成为人们的需求,而利用可感知的哈
当前信息领域的研究热点——云计算带动了整个商业模式的转变,延伸出了新的商业体系。对于终端用户来说,它宣告了低成本提供超级计算时代的到来,给用户、产业界及各国政府带来深
回归测试是指修改了程序后,需要重新进行测试来确保修改程序没有引入新的错误或导致原有程序产生错误,为确保软件的可靠性,软件在迭代开发的过程中通常需要进行多次回归测试
论文以“塘沽市容管理局电子政务系统”为基础,根据在分析、设计、实现系统过程当中遇到的各种技术问题及解决方案,总结提炼成文。实现这个系统意义重大,系统可以促进市容行业信
随着互联网的迅猛发展,为了有效地组织和分析这些海量的网络信息,人们希望对网页实现自动分类。因此,网页分类技术成为快速有效地组织网络信息的一项重要技术。而支持向量机(
随着物联网概念的普及和系统的不断发展扩大,物联网越来越呈现出数据量大、实时性高和网络环境复杂的特点,然而,物联网中的中间件属于数据处理能力有限的弱计算环境平台,当系