基于Spark的GSP算法并行化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qisucha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的时代,信息企业需要制定未来的规划,面临着如何从海量的信息中以较低的代价来迅速地分析出有用的信息的难题,数据挖掘技术也一直在寻求这一难题的解决方案。序列模式挖掘作为数据挖掘研究领域中主要的研究内容之一,有着大量的应用需求。传统的串行序列模式挖掘算法虽然在处理少量数据时有不错的性能,但是当数据量较大时,这些算法的运算能力却很难满足人们的要求。基于Hadoop平台的并行序列模式挖掘算法有着负载不平衡和IO开销过大的问题。在分析了序列模式挖掘GSP算法(Generalized Sequential Pattern mining algorithm)过程和性能、理解了Spark云计算平台的特点之后,提出了一个基于Spark的并行序列模式挖掘算法GSP-S(GSP Algorithm Based on Spark)。GSP-S算法采用多个MapReduce任务完成挖掘任务。为了尽量均衡Spark平台计算节点间的负载,GSP-S算法将序列数据库切分为n个相同大小的数据库分片。为了充分减小IO开销,第一个MapReduce任务将序列数据库分片从HDFS中导入RDD中,接下来的MapReduce任务从RDD中存取中间结果。采用真实数据集和合成数据集,对GSP-S算法在数据可扩展性和集群可扩展性上与基于Hadoop的序列模式挖掘算法进行了比较。在本实验环境下,结果表明,与基于Hadoop的并行序列模式挖掘算法相比,在数据可扩展性方面,GSP-S算法运行时间平均降低了75%;在集群可扩展性方面,GSP-S算法运行时间平均降低了50%;同时,根据提出的负载平衡策略,GSP-S算法运行时间大约降低了12%。因此GSP-S算法有更好的数据可扩展性和集群可扩展性,同时也有较好的负载平衡和容错性。
其他文献
目的探讨中药丹参对人脱落乳牙牙髓干细胞(SHEDs)成骨/成牙分化功能的影响。方法利用50mg/ml的丹参注射液作用于SHEDs细胞,利用成骨/成牙分化诱导培养基诱导SHEDs定向分化。
鱼糜制品是我国水产加工品中发展速度最快的品种之一。海水鱼是传统鱼糜制品的良好原料,但已不能满足鱼糜制品迅速增长的市场需求。随着淡水养殖业的发展壮大,将草鱼、鲢鱼等
近年来,越来越复杂的移动应用与移动设备有限的计算能力之间的矛盾越来越突出。利用云端融合环境提高移动设备的计算和电池续航能力成为发展趋势。然而现有云端融合环境下的
作为计算机视觉领域中的一个热点课题,视频图像中的运动目标跟踪问题具有重大的研究意义。但是由于背景干扰、障碍物遮挡以及目标变形等原因,复杂场景下的运动目标跟踪仍然是
社会生活的需要促进了信息科学的产生和发展,同时信息科学的发展对人类社会的生活、生产和技术进步起着极大的推动作用。通常,一组以高速网络连接的分布式的具有不同计算能力
近年来随着工业、科研和军事等领域的发展,微型嵌入式实时系统得到广泛的应用。与传统的嵌入式实时控制系统相比,微型嵌入式实时系统的处理能力和内存容量往往相对有限,需要
新型网络环境下,网络流量存在规模大、数据海量且复杂等诸多特点,使得当前的分布式拒绝服务(Distributed Denial of Service,DDoS)攻击呈现多样性、突发性和隐蔽性等特性,也导致了当前检测方法存在误报率、漏报率较高和时效性差等问题,难以有效地检测出攻击。随之而来的,DDoS攻击所引发的安全风险与财产损失问题也急剧增加。因此,新型网络环境下准确、高效地检测DDoS攻击,减少经
现有高精度球体加工方法中,由于传统V形槽磨盘方式的磨盘沟槽为同心圆,使得球坯在加工过程中自转角是一个固定值。因此加工球上的研磨轨迹为三个同心圆环,球坯需要借助外力来
在核科学与工程中,本征值的计算具有重要的意义。常见的本征值问题包括有效增殖系数尼本征值问题和时间变化常数α本征值问题。在应用蒙特卡罗方法求解k本征值问题时,随着系
化学物质的复杂混合形态是自然界中最普遍的存在方式。在各种环境复杂溶液中,其内部物质之间数量庞大的交互作用其是外在功能和效应的本质来源。虽然,一些学者通过简化关系来