频繁模式挖掘相关技术研究

来源 :复旦大学 | 被引量 : 6次 | 上传用户:m634606037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和应用不断发展,人类面临着海量的数据。如何更好的利用好这些数据,以及怎么从这些数据中提取和挖掘出其中隐含的知识,是人们感兴趣的事情。知识发现和数据挖掘就逐渐成为现在计算机技术研究的一个重要领域。频繁模式挖掘是数据挖掘领域的一个重要方面,研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。本文对频繁模式挖掘相关技术进行了研究。包含了以下几个方面:利用倒排表改进传统Apriori的算法挖掘频繁模式;利用组合树进行频繁模式的挖掘;利用组合树挖掘闭合频繁模式。基于倒排表的Apriori频繁模式挖掘算法传统的Apriori算法在处理短模式和稀疏数据集的时候表现很好,但是处理长频繁模式挖掘时候效率相当低下,需要多次扫描事务库。针对传统Apriori算法的缺点,我们利用倒排表来提出一种新的挖掘算法,即InList算法。与传统Apriori算法相比较,InList算法采用逐项插入而不是逐事务插入,在事务频繁库中存储已有的频繁项集,逐次插入新的频繁单项,和已有的频繁项集产生新的频繁项集,可以避免验证中的大量冗余操作。不需要连接和剪枝,仅需要扫描事务库两次。由于这些改进,InList算法具有较好的效率。基于组合树的频繁模式挖掘我们提出一种基于组合树频繁模式挖掘算法。与Apriori算法和FP-growth算法相比,该算法具有更好的效率。算法针对FP-growth算法的缺点,采用倒排表,逐次插入新的频繁单项,生成频繁树,再经过分枝间计数的传递,使各分枝相对独立。算法只需要两次扫描事务库,可以更大限度的利用事务间的共享项,可以排除掉局部无关项,同时有效的避免了大多数递归的操作。实验与理论分析表明,对于稠密和稀疏数据两类数据集,该算法都具有较好的效率。高效频繁闭合模式与完全频繁模式相比较,频繁闭合模式包含完全频繁模式的所有信息,但频繁闭合模式比完全闭合模式的数量却可以少几个数量级。这对于处理具有大量频繁项的事务库的频繁项挖掘是一个很好的选择。传统的挖掘闭合频繁模式都需要消耗大量的时间进行验证。本文利用组合树的优点,在生成组合树的同时,比较相应结点的计数,可以容易的区分每个频繁模式是否属于闭合频繁模式。然后通过对树的遍历,得到所有的频繁闭合模式。由于节省了检测操作,大大提高了效率。
其他文献
中国的"一带一路"倡议对中俄关系的发展产生了较大影响,将促使中俄经济关系走向平衡。中俄经济合作的首要任务是"一带一盟"对接。促进"一带一盟"对接的有利因素有:现有的多边
写作教学是语文教学领域的重要环节,然而时至今日,写作教学中存在的诸多问题依然没有得到有效解决。究其原因,写作课程和教学内容的缺失及其不确定性是导致写作教学效果普遍
信息技术的飞速发展促使数据大量增加与积累,与此同时也促进了数据库技术的发展,当今数据挖掘技术已深入到社会中的各个领域。数据挖掘技术可以对数据进行异常检测、分类预测
目的研究孕期补充锌对镉所致胎儿死亡、外观畸形和生长发育迟缓的保护作用。方法孕鼠随机分为对照组、单纯锌处理组、单纯镉处理组和锌+镉处理组。单纯镉处理组和锌+镉处理组孕
文章主要简述一种新型动力电池用埋铜复合板的制前设计及工艺生产流程。因动力电池PCB需要承栽大电流、高电压,需要在PCB内埋置紫铜板,且紫铜板上需要根据客户需要开孔及开槽,并
随着我国英语教学追求的不断提高,在英语教学中加强英美文学的渗透,对于提高当代高中学生的英语综合素质有着重要的意义。英语文学是能够单纯且有效反映地方英语的文学类形,
节目主持人的语言规范,从实践到理论已初步形成了自己的语体特征,实践的发展呼唤理论的深入,为了更准确、更具体地分析口语体特征,从比较的角度,以辩证的眼光对主持人节目的
<正>猪心为猪科动物猪的心脏。中医认为,猪心性平,味甘、咸,无毒,入心经。有安神定惊、养心补血之功,可治惊悸、怔忡、自汗、失眠、神志恍惚、精神分裂症、癫痫、癔病等症。
期刊