基于项目邻接表与事务树的频繁项集挖掘算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:shuangsssss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,已被公认为是数据库研究中一个极富应用前景的领域。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项集又是挖掘关联规则的关键问题之一。Apriori算法、FP-growth算法和Eclat算法是经典的频繁项集挖掘算法,但在候选项集的产生、扫描数据库的次数及内存要求方面仍然存在着一定的问题。在分析了经典算法的基础上,本文主要在以下几个方面研究了基于矩阵的关联规则挖掘算法。首先,针对现有频繁项集挖掘算法中产生大量的候选项集和扫描数据库次数过多的问题,结合向量运算理论和项目邻接表,把事务数据库中的各个项目组织到项目邻接表中,提出了一次性产生频繁项集的基于项目邻接表的频繁项集挖掘算法。其次,针对现有算法在寻找最大频繁项集的过程中需多次扫描数据库,侯选项集过多,支持度计算过于复杂等问题。把事务数据库中的各个项目组织到事务树中,通过遍历事务树能直接快速的找到最大频繁项目集。最后,传统算法在生成关联规则时,生成的关联规则之间存在着大量的冗余和无效的规则,或者漏掉了一些有用的规则。针对这些问题,提出了一种有效关联规则挖掘算法,在该算法中,增加了新的关联规则度量标准——参考置信度,能够生成用户感兴趣的有效关联规则。
其他文献
随着Internet技术的快速发展和软件应用需求的继续增长,面向服务的计算成为了学术界和产业界关注的热点。面向服务的计算以“软件即服务”的理念为前提,期望以服务作为基本元素
移动Ad Hoc网络是由一组无线移动节点组成的,不需要依靠现有固定通信网络基础设施的网络。该网络能够迅速展开使用,所需人工干预最少,并且是没有任何中心实体、自组织、自修复的
图像理解是计算机视觉领域一个基础并且重要的问题,对于一张输入图像,研究者希望计算机可以像人类一样去理解其所包含的语义内容。作为图像的核心组成部分,图像中的物体包含了最
无线传感器网络是一类以应用为中心的网络,而节点定位问题是无线传感器网络进行目标识别、监控、跟踪等众多应用的前提,也是传感器网络研究中的热点问题之一。传统的定位方法
图像分割是计算机视觉领域的一个重要而且基本的问题。图像分割是指把图像分解成各具特性的区域并提取出感兴趣目标的技术和过程,是从图像处理到图像分析的一个关键步骤,在图
近年来,随着无线网络通信技术和定位技术(如GPS)的发展,大量具有定位功能的无线设备(例如移动电话、车载GPS等)得以普及。当这些设备被部署到一些运动着的对象上时,人们便可
基于实例的模式识别中,由于存在着大量实例和特征个数的可变特性,导致难于形成高区分度的特征子集,从而使分类器识别性能低下。基于遗传算法的特征选择使用选择、交叉和变异算子
随着通信技术和网络技术的发展,接入电力企业网络的系统越来越多,调度中心、电厂、变电站、用户等之间进行的数据交换也愈加频繁,这对电力监控系统和数据网络的安全性、可靠
软件测试作为保证软件质量的主要手段,是软件开发过程中的重要环节。随着软件质量意识的提高,在整个软件工程中,软件测试费用的比重越来越大。复用软件测试用例,是降低软件测试的
Web是一个巨大的信息资源库,不仅内容复杂、而且形式各异。根据查询主题需要发现Web上聚集在一起的社区,使用户很快地从互联网上提取所需知识,即为Web社区挖掘。Web社区发现