基于同类项的多最小支持度和并行计算的频繁模式挖掘研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:vbkiller2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,信息量的爆炸式增长成为了人们必须要面对的机遇与挑战。因此,如何在这些庞大信息中获取对自己有用的信息便成为了一个值得研究和探讨的话题。数据挖掘算法是处理数据库中大量数据,并在这些数据中提取有价值信息的一项新技术。其中,频繁模式挖掘算法在数据挖掘中占有十分重要的地位。但是,传统的频繁模式挖掘算法在一定程度上都存在缺点与不足。本文针对这些问题,提出了两种改进算法。主要研究内容如下:1.简单介绍数据挖掘的相关概念,概述国内外对数据挖掘的研究现状,以及关联规则挖掘的相关概念和经典算法。2.为了解决频繁模式挖掘算法在挖掘过程中需要耗费大量的时间与内存的问题,首先借鉴了集合枚举树的结构,并从枚举树中使用多最小支持度来降低时间、内存消耗。但是,当事务数据库中事务项数特别庞大时,对每个项都定义一个唯一的最小支持度阈值显然是不科学的。针对上述问题,我们提出了基于同类项的多最小支持度频繁模式挖掘算法,该算法首先对数据库事务划分同类项,然后对划分的每个类赋予唯一的最小支持度阈值,最后使用向下封闭属性排序和LCMS(类的最最小支持度)概念来有效地修剪搜索空间,从而给出了FP-CME算法。该算法在挖掘过程中不需要生成条件候选树,并可以直接从集合枚举树中发现想要的频繁模式。经仿真实验,该算法在执行时间、内存使用方面较传统算法有较大的提高。3.频繁模式增长算法(FP-growth)是频繁模式挖掘中最经典的算法之一,但FP-growth算法也存在问题:当在大规模数据环境下挖掘时,它生成的FP树过于复杂,其结果就是构建FP-tree困难以及挖掘效率低下。针对上述问题,我们提出了基于多最小支持度的并行优化的POFP-growth算法。该算法共分为两个步骤,第一步,对原数据库事务项进行分类,划分出多个类并赋予类标号和唯一支持度阈值。然后对数据库数据进行共享前缀处理,接着将事务数据库水平分割为N部分,然后并行构建局部数据库的FP-tree,最后使用内部级联接方法组合所有局部FP-tree得到完整FP-tree。第二步,在多最小支持度阈值的约束下使用项合并策略挖掘完整FP-tree中的频繁项集。通过仿真实验可知,提出的算法在执行时间有一定的提高。
其他文献
在国家新课程改革工作的推动下,全新的教育理念和教学方式相继出现。在解决传统教学问题、提升教育质量方面取得了巨大成就,使得新课程的科学理念被越来越多的人认可和接受。小学课堂教学工作里的课堂练习这一环节得到了学术界的关注和重视,其科学性、有效性问题也因此成为了学术研究的研究内容,为教师开展课堂教学创新活动提供了科学指导。具体到小学数学课堂教学领域,教师对课堂练习的具体设计水平将直接影响教学效果,同时也
灰葡萄孢(B.cinerea)是一种寄主范围很广泛的植物病原真菌,它能感染200种以上的植物,包括黄瓜、番茄、草莓、葡萄、苹果等重要农作物,引发灰霉病。在前期研究中,本实验室构建了
本文以明清时期存在的“者、之、的、零标记”类关系从句为研究对象,从语言类型学的视角,对这一时期的各类关系从句作共时的描写及历时的比较。第一部分为绪论。该部分主要介
球头铣刀具有高效切削、高精切削、灵活切削的特点,被广泛应用于航空航天、机械电子、汽车、模具等领域的曲面铣削加工过程。模具是制造行业不可缺少的复杂零件制造工具,许多
我国的矿井开采深度不断增大,随着浅部矿产资源面临枯竭,深部矿产资源开采已成为常态化,未来将向着更深的岩层开采。深部开采的主要方式为钻爆法,深部岩体周围存在初始地应力,在爆破时爆炸应力波会与其耦合对岩体作用。经过长期的地壳运动,侧压系数的变化较大,一般为0.5~5.5,大部分集中在0.8~1.2,更有复杂的地质侧压系数能达到30倍以上,不同侧压对爆破破岩过程产生了明显的影响。针对不同侧压下的破岩过程
2013年国家主席习近平提出精准扶贫战略构想及具体举措,为我国2020年全面建成小康社会打下坚实基础。阳朔县白沙镇作为全县脱贫攻坚重要战场,以全镇喀斯特地貌自然风光为突破口,全力发展乡村旅游助力精准扶贫,切实将脱贫攻坚伟大战略构想及具体举措落实落细。而阳朔县白沙镇在实施乡村旅游助力精准扶贫过程中存在“精英俘获”现象,也就是说政府、涉旅企业、贫困户等乡村旅游助力精准扶贫利益相关者主体在利益分配时未向
亚麻荠是一种低投入油料作物,具有较强抗逆境胁迫能力,在食品、饲料、工业等多种领域都有广阔的开发前景。但高含量的多不饱和脂肪酸使之容易被氧化,稳定性变差。因此,本论文
自上世纪六十年代末汉语话题作为研究对象被提出以来,许多学者对其进行了研究,主要集中在现代汉语、方言、民族语、上古汉语等方面。包括对汉语话题标记的研究、对专书中话题
十字花科黑腐病菌(Xanthomonas campestris pv.campestris,简称Xcc)是一种在全世界范围内能够引起十字花科植物黑腐病的革兰氏阴性菌,又称为甘蓝黑腐病菌,主要侵染甘蓝、油菜、
背景异位妊娠(Ectopic pregnancy,EP)常由输卵管外周或腔内炎症引起受精卵在子宫腔外着床发育导致破裂的一类急腹症,临床表现常为急性腹痛,出血量大,存在很高的致死风险。近年来,随着国家人口政策的放宽和人群观念的转变,EP发生率不断升高。对于在流产或破裂前无明显症状的患者,临床早期难以确诊。常规用早孕试纸测定尿hCG或血清β-hCG含量仅可明确是否妊娠,不能明确妊娠部位,对于先兆流产、