完全频繁项集挖掘算法及其在分类中应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wangwei07863
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会科技的进步,信息量呈几何级增长,如何从大量信息中提取出潜在相互关联的知识集合体,成为当前数据挖掘领域中迫切需要解决的一个问题。频繁项集的提出,为解决该问题提供了一个有效的方法。频繁项集是指从数据中提取出满足支持度阈值的的信息集合体,它包含着大量潜在有用信息,能够有效地为人类提供决策支持。目前基于Apriori算法思想的完全频繁项集挖掘算法能够有效地实现稀疏型数据集和短模式下的挖掘工作,但在密集型数据集和长模式下,挖掘效率不高,因此应用受到很大限制。   本文针对当前完全频繁项集挖掘算法在密集数据集和长模式挖掘上存在的效率问题,提出了一种Apriori改进算法,该算法引入垂直比特数据表示方法以及交叉计数方式,利用索引向量表生成候选二项集,同时将非频繁二项集用于候选项集的剪枝,并在计数阶段,采用前缀数组数据结构优化计数方式。实验结果表明,经改进后的Apriori算法能够有效地挖掘密集数据集和长模式下的频繁项集。为了进一步提高计数的效率,在前文研究的基础上,引入差集思想,计数由之前的完全标识集交叉计数转化为差集标识集计数,从而迸一步地提高了Apriori算法的运行效率。本文将频繁项集研究成果应用于分类中。传统的分类算法存在分类过程黑箱操作,分类结果无法解释的缺点,而基于频繁项集的关联规则分类算法能够有效解决上述问题,但由于缺乏有效的规则评价指标,分类精度普遍不高。鉴于此,本文提出一种新的关联规则分类算法。它引入了兴趣度规则评价指标,有效地删除分类信息少的冗余规则,并利用权重准则对规则重要性进行排序,进而达到提高分类精度的目的。
其他文献
常州市戚墅堰东方小学原有制度主要受学校发展阶段、价值认识、思维水平的限制, 出现了琐碎交叉重复、点状割裂、停留在纸面、约束控制性大的弊端.为消除弊病、跟随教育改革
创意是广告传播的核心话语,营销是企业经营的重要课题。两者虽然分属不同领域,但都关乎企业切身利益,而且在新形势下迫切需要产生交集。营销何需创意?简言之,营销即满足需求
输电线路是电网中重要的组成部分,输电线路影响着整个电力网系统,输电线路一旦发生安全问题,将导致整个电力网发生瘫痪.因此本文就输电线路运行安全影响因素以及防治措施进行
南京师范大学附属扬中小学在南京师范大学专家团队的指导下, 开启了联合办学的新篇章, 得到了新发展.在南京师范大学专家团队的指导下, 南京师范大学附属扬中小学采取了以下
淮安市淮海路小学以“构建和美文化, 实施和美教育”为办学理念, 全面开展民乐特色课程的实践研究, 通过多维建构, 进一步丰富了课程, 满足了学生的多样需求, 生成了“和而不
非常荣幸能够代表中国中央电视台来到日本参加第8届“中日韩电视制作者论坛”。福冈宜人的气候和美丽的城市面貌,为我们思考电视艺术的未来提供了绝佳的环境。带着愉悦的心情
2015年1月5日,越南南部橡胶产业JSC(Casumina)公司与美国公司签署协议,Casumina公司将出口轮胎到美国市场。今年底Casumina公司将出口20万条,价值5 700万美元的轮胎到美国。
随着多媒体网络和计算机技术的进步,视频图像处理技术得到了迅速发展。在无线多媒体网络中,从多个不同类型传感器获得的视频图像具有容量大、信息内容丰富和高分辨率等特点,
乳腺癌是危害中年妇女身体健康的最常见的恶性肿瘤之一,目前预防与治疗乳腺癌的关键在于早发现,早诊断,早治疗。临床上乳腺癌诊断的主要方式为:通过医生阅读乳腺钼靶的图像信息,查
有一份精力,就要为党多做一点工作。——罗荣桓罗荣桓,1902年出生于湖南衡山县,原名慎镇,字雅怀,后改名荣桓,取《诗经“》桓桓于征”之意。1927年 With a bit of energy, we