最大频繁项集挖掘算法的研究

被引量 : 0次 | 上传用户:sellene
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。知识发现与数据挖掘正是在这一背景下诞生的一门新科学。 关联规则是数据挖掘当前研究的主要模式之一,它用于确定数据集中不同域或属性之间的联系,找出有价值的多个域之间的依赖关系。频繁项集挖掘是生成关联规则的关键步骤,其效率问题是关联规则挖掘中的一大难点和热点。频繁项集挖掘可分为完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘三类。论文基于数据集和最大频繁项集的不同表示结构,从剪枝策略、尾项集的项排序策略和超集存在判断方法等角度对最大频繁项集的挖掘问题进行了深入的分析和研究。 位图是—种有效的数据集和项集的表示结构。论文基于位图提出了深度优先挖掘算法DFMfi。算法DFMfi充分利用位图的字节特性,优化了项集的匹配和合并操作,并首次在其中引入了基于局部最大频繁项集的超集存在判断方法。论文证明了算法DFMfi的正确性,并通过实验说明其在运行时间上少于同类算法。 近几年来,数据集的另—种压缩表示结构—FP-Tree结构越来越受到研究者们的青睐,论文第二部分研究基于FP-Tree结构的最大频繁项集挖掘问题,其中使用FP-Tree表示数据集及其投影,并利用MFI-Tree保存已有最大频繁项集。分析和实验说明已有算法中的超集存在判断为耗时操作,针对这种情况,论文在单棵MFI-Tree表示下基于最大频繁项集投影提出一种新的超集存在判断方法,并证明了多棵MFI-Tree表示下存在一种简单的超集存在判断方法,二者均可有效降低超集存在判断的时间开销。相应于两种超集存在判断方法,论文分别提出了算法FPMFI和FIMFI。在算法FIMFI里,论文分析了尾项集的项排序策略对压缩搜索空间的影响,提出了一种高效的、基于FP-Tree和MFI-Tree信息的尾项集项排序策略。通过使用新的前瞻剪枝方法,算法FIMFI拓展了前瞻剪枝的范围,加大了前瞻剪枝成功的可能性,尽可能地压缩了搜索空间。此外,FPMFI算法中的非冗余子树结构是寻求高效数据集压缩结构的一次尝试。实验表明,在稠密数据集上,这两个算法相对于同类算法均具有一定的优越性。其中FIMFI算法比同类算法中性能最优的FPMax~*算法平均快30%-40%。 论文最后提出一种能同时压缩表示数据集和最大频繁项集的新的数据结构—CFP-Tree,基于CFP-Tree结构定义了最大化子集,并提出了CfpMfi算法。通过其与FPMax~*
其他文献
随着技术的快速发展,计算机已经应用于人们工作、生活和学习的各个领域,因此中等职业学校计算机教学就显得格外重要,本文通过探讨中等职业学校计算机教学的现状,提出了中等职
随着中药现代化、国际化进程的推进,人们逐步认识到,现代中药是中药业发展的必然趋势,这一点已经获得了理论的支持和实践的佐证。现代中药作为对传统中药的继承与创新,已显露
教师是大学的主体力量,大学有权力对教师进行评价。大学教师评价既关系到大学发展又关系到教师个体提高,成为大学管理教师的方式和手段。在高等教育大众化和高校实行聘任制的
21世纪是以知识的创新和应用为重要特征的信息经济时代,社会的发展对人才的素质和能力提出了新的标准和更高的要求。面对信息社会带来的挑战和机遇,为了提高国家的综合国力和
我国对石油资源的需求随着经济的增长迅速扩大,2003年石油表现消费量达到2.52亿吨,成为仅次于美国的全球第二大石油消费国。石油安全成为我国保障经济快速发展的一个重要的战
对佩剑运动员在比赛中对攻技术得分特点、运用手段及注意事项进行分析,旨在为提高我国佩剑运动员的比赛能力提供参考。
目的探讨非小细胞肺癌根治术后早期复发及进展的影响因素。方法回顾性分析2013年1月-2016年12月NSCLC根治术后复发患者120例的临床资料,通过采用单因素及多因素研究方法,从中
<正>一、问题的提出随着银行卡使用的普及,近年来,出现了各种各样的银行卡冒名纠纷,成为司法审判的难点,也成为社会关注的热点。实务中出现的银行卡冒名纠纷有以下三种:第一
本文以反思作文教学存在的问题和弊端为背景,探索了作文教学改革的新思路——生活作文的新体系,并以汪曾祺作品模块为例,对生活作文的课程设计进行了一些初步的尝试。全文共分三
<正>【裁判要旨】汽车维修单位通过换装旧件扩大损失、故意制造事故、事后购买保险、虚构事故经过等手段,在被保险人不明确知情的情况下,骗取保险公司理赔金的行为构成保险诈