高频繁度低效用模式挖掘算法及其在云计算下的实现研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:sda_xiangwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式挖掘是数据挖掘技术中的一个重要的研究方向。对于传统的频繁模式挖掘和高效用模式挖掘,它们只能分别用来挖掘频繁模式和高效用模式。在许多实际应用场景下,这些传统的单纯的频繁模式挖掘和效用模式挖掘模型的范畴会比较狭窄,不能满足实际应用中的多样化分析需求,人们往往对频繁度和效用值都感兴趣,不单单只是频繁度或者效用值。为了解决这个问题,本文提出同时考虑支持度和效用值,进而挖掘更有价值的模式,其中一种就是高频繁度低效用模式,并提出了一个新颖的算法 HFLUP(High Frequency and Low Utility Patterns Mining Algorithm)。挖掘高频繁度低效用模式的最简单直接的方法就是分为两阶段来挖掘,首先利用频繁模式挖掘算法来挖掘出所有的高频繁度模式,然后再从这些高频繁度模式中找出效用值低于用户指定的最大效用阈值的模式,即最终得到高频繁度低效用模式。但是这种两阶段的挖掘方式会产生大量的候选集,且需多次遍历数据库,磁盘I/0开销大,挖掘效率低。因此,为了避免这些问题,本文提出的高频繁度低效用模式挖掘算法HFLUP是一个不产生候选集的单阶段算法,并且只需要遍历数据库两次。本文还提出了一个新的数据结构,叫做FUL,用来存储模式的效用信息以及裁剪搜索空间的信息,通过FULs,算法可以高效地直接挖掘出高频繁度低效用模式且无需产生候选模式。为了减小搜索空间,提高挖掘效率,提出了有效的且规模可控的效用下界裁剪策略以及通过lookahead策略预先确定高频繁度低效用模式而无需递归枚举。大量实验表明:所提出的两个裁剪策略是有效且高效的,HFLUP算法在运行时间和内存消耗上大大优于两阶段的高频繁度低效用模式挖掘方法。本文的第二项工作是将所提出的算法并行化,以适应海量大数据处理的要求,以克服单机的物理内存局限所造成单机挖掘的低效率。本文采用云计算模式下的基于内存的分布式计算框架Spark来实现算法的并行化,提出了基于Spark的并行高频繁度低效用模式挖掘算法PHFLUPS(Parallel High Frequency and Low Utility Patterns Mining Algorithm Based on Spark),以便利用大规模分布式集群来并行挖掘大数据。对比实验表明,PHFLUPS算法比基于MapReduce的并行高频繁度低效用模式挖掘算法效率更高,并且在大规模数据集上并行化算法要比单机HFLUP算法效率高。本文的思路和所提出的相关技术同样适用于挖掘其他类型的模式,比如低频繁度高效用模式。
其他文献
介绍了经过渗硼后冲孔模具的凸模固定粘合工艺、渗硼方法现状、存在问题及今后的发展动向。
分类是机器学习的最重要研究领域之一,而多分类问题是目前研究分类问题的热点。最近提出的解决多分类问题的判别最小二乘回归(Discriminative Least Squares Regression,DLSR
从介绍乔治.福雷斯特的生平出发,概述了他7次植物探险的时间、主要路线和一些特殊经历。然后通过对福雷斯特引种中国主要植物种质资源(以杜鹃花科植物为主)进行列表统计,重点
近年来,为了改进公立中小学教学评价的质量,美国致力于提高教学评价人员的专业评价能力,主要采取如下三项措施:开发专业的教学评价标准或工具;培训专业的教学评价人员;对教学
随着全球气候问题愈演愈烈,碳排配额成为世界各国控制温室气体排放的重要工具。目前,我国各地政府在碳排配额分配时大多采用“同等对待”策略,导致跨区域绿色供应链中节点企
在线社交关系网络是以网络和数字符号信息为中介,基于超文本多媒体链接形成的虚拟人际关系网络。随着近年来信息技术的发展和应用,网络与现实间的区分度逐渐模糊,很多时候人
<正> 珠江三角洲是广东经济最发达的地区,经济发展极大地改变了沿岸的地形地貌,围海造地、养殖、港口码头工程建设等开发活动已使伶仃洋沿岸面目全非,沧海变桑田。为了探讨珠
会议
本文以美味猕猴桃’布鲁诺’(Actinidia deliciosa.cv.Bruno)为试验材料,在常温(20 ℃)条件下贮藏,研究0(对照)、0.5和1.0 μL/L 1-甲基环丙烯(1-MCP)熏蒸处理24 h对猕猴桃采
古希腊哲学不仅是话语体系、理论体系、论辩活动或逻辑分析,更是追求智慧的生活方式,哲学话语与作为生活方式的哲学本身是不同的。古代哲学与哲学家的具体生活不可分,哲学家总是
人工合成甜味剂与人工合成色素作为日常生活中经常使用的食品添加剂,其安全性一直被人们广泛关注。目前的食品添加剂的安全性评价是针对单一品种制定相应的最大使用量,而一种