基于WDiffNodeset与WNegNodeset结构的加权频繁项集挖掘算法

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:rlh1911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
加权关联规则挖掘是近年来数据挖掘领域中研究的热点问题之一。它解决了传统的关联规则挖掘中只考虑项出现的频率,不考虑项的重要性的问题。在实际应用中,项目往往根据他们的价值或意义具有不同的重要性。加权关联规则挖掘是有意义的,它不仅可以考虑项目的频率,还可以考虑项目的重要性。因此加权关联规则挖掘应运而生。传统的加权关联规则挖掘不满足向下封闭属性。后来人们提出了考虑事物权重的加权关联规则挖掘算法,项集的加权支持度可以反映事务具有不同的重要性,并且它满足向下封闭属性。因此该类算法成为该领域的主流方向,但是在挖掘效率方面仍然存在着一定的不足:(1)在扫描数据库方面:有些算法需要多次扫描数据库;(2)在连接和剪枝策略方面:有些算法每连接一次都会产生大量的候选项集,影响了挖掘的效率。在此基础上,本文主要针对加权频繁项集挖掘算法中存在的不足做出改进。本文主要做了以下工作:(1)通过研究数据挖掘、关联规则挖掘、加权关联规则挖掘的国内外现状,分析了近几年相关的算法,总结了这些算法的优点与不足。(2)提出了一种基于WDiff Nodeset结构的加权频繁项集挖掘算法。针对基于WN-list加权频繁项集挖掘算法(NFWI)在密集数据集中会进行大量的交集运算,导致挖掘效率较低的问题,提出了Diff NFWI算法。引入差集的思想。该算法首先采用了新的数据结构WDiff Nodeset,该数据结构采用了集合枚举树和混合搜索策略相结合的方法来查找加权频繁项集,减少了大量的交集运算,从而达到高效地查找;其次使用了差集策略快速计算出项集的加权支持度,这使得WDiff Nodeset结构更适合挖掘加权频繁项集;最后通过仿真实验验证了Diff NFWI算法比NFWI算法具有更高的挖掘效率。(3)提出了一种基于WNeg Nodeset结构的加权频繁项集挖掘算法。尽管WDiff Nodeset数据结构具有很好的性能,但我们发现在某些数据集中,计算两个WDiff Nodesets之间的差值需要很长的时间,因此提出了Neg NFWI算法。首先该算法采用了另一种有效的数据结构WNeg Nodeset。相同的是,WN-list、WDiff Nodeset和WNeg Nodeset均为基于前缀树的数据结构。不同的是,该数据结构首先采用了一种新的基于集合位图表示的位图加权树(BMW-tree)节点编码模型,通过按位运算符快速提取WNeg Nodeset的节点集,避免了大量的交集运算;其次将算法的时间复杂度降低到(2)nO x?,其中x为WNeg Nodeset节点集的长度,n为加权频繁1-项集的个数;然后使用差集策略快速计算出项集的加权支持度;最后通过仿真实验验证了算法的有效性和可行性。实验结果表明,Neg NFWI算法在时间效率方面性能优于NFWI、Diff NFWI算法;与NFWI算法相比,Diff NFWI算法仍具有很好的性能。总之,本文结合了频繁项集及加权频繁项集挖掘的理论,采用了两种数据结构,分别提出了两种改进的算法。实验结果表明,与原算法相比,Diff NFWI、Neg NFWI算法在不同的数据集中具有良好的性能。
其他文献
在移动无线网络中,不断涌现的基于位置信息的应用对于智能设备进行邻居发现的能力提出了要求。到目前为止,绝大多数现有工作的研究重点都集中在设计高效和节能的邻居发现协议
我国水资源浪费的关键因素之一是农业用水利用效率低,农业节水灌溉技术的采用能有效节约水资源,是我国缓解水资源短缺的重要手段。玉米种植户节水灌溉技术选择的理性行为符合威廉姆森交易费用理论,玉米种植户节水灌溉技术选择行为是在一定经济制度约束条件下,农户为追求自身利益最大化的理性行为,其行为选择自然有其内在的经济制度根源,交易费用的高低是玉米种植户节水灌溉技术选择行为的主导因子。因此本文以威廉姆森的交易维
近年来,经济学理论在移动网络通信领域取得了广泛的关注,很多国内外的学者都尝试使用经济学理论去解决移动网络通讯领域的问题,例如资源分配,利益最大化,社会福利最大化,防串
近年来,人机交互、可穿戴电子设备、电子皮肤等技术领域取得飞速发展,触觉传感器作为其关键部件而备受关注。随着触觉传感器应用领域不断地拓展,对其性能提出了更高的要求,在
隐写术作为一种保障信息安全的新型手段,在过去二十几年的研究和应用中得到了广泛的关注。作为隐写术的对手—隐写分析同样也得到了长足的发展,其在维护商业信息和国家安全方
本文研究了蛇形软体机器人系统的动力学方程和积分方法。软体机器人是一种人们从自然界中获取灵感设计制造的一类仿生机器人,具有结构柔软度高,环境适应性好,亲和力强,功能多
研究背景:原发性肝癌简称肝癌,是全球发病率和死亡率排名第三的、严重威胁人类生命健康的恶性肿瘤。在我国,每年有接近50万例的新发病例和超过40万例的死亡病例。临床治疗肝
目前,无线传感器网络已经被应用在许多生活场景中。为了提高传感器节点收集数据的效率,我们通常会将整个网络划分成许多个重叠较少的簇(Cluster),每个簇中有个簇头(Cluster H
随着手性药物的市场需求急剧增长,手性药物及其中间体的制备越来越受到人们的关注。S-3-环己烯-1-甲酸是抗凝血药依度沙班的手性前体物质,因此制备光学纯的S-3-环己烯-1-甲酸具有重要意义。目前其生产方式为化学法手性拆分,但存在操作步骤繁琐且过程中要用到有毒的丙酮试剂等缺点。如能开发可代替化学法的简单高效且绿色环保的生物催化途径,将有助于抗凝血药依度沙班的可持续生产。酯酶BioH是一种能够催化酯键
背景:肺癌是中国及世界范围内的最高发病率和死亡率的癌症[1]。非小细胞肺癌是肺癌中最常见的类型,占据肺癌总数的85%左右[2]。最新研究显示,非小细胞肺癌患者5年存活率不到1