【摘 要】
:
现有并行FP-Growth算法在挖掘项之间具有层次关系的事务数据时存在冗余项集大、效率低的缺点。针对上述问题,提出一种基于Spark的改进FP-Growth并行算法,建立词典树与FP-tree
【基金项目】
:
国家自然科学基金项目(61300029、61672168、61672172),广东省产学研协同创新重大专项基金项目(201604010096).
论文部分内容阅读
现有并行FP-Growth算法在挖掘项之间具有层次关系的事务数据时存在冗余项集大、效率低的缺点。针对上述问题,提出一种基于Spark的改进FP-Growth并行算法,建立词典树与FP-tree结合的双层层次化结构(词典频繁模式树,LFP-tree)。在具有主次层次关系的事务数据库中挖掘对象与属性的关联规则,减少多余搜索时间,利用Spark框架在内存计算和迭代计算上的优势完成剪枝、候选项集生成等工作。实验结果表明,该算法显著减少冗余项集的产生,在效率上优于FP-growth算法。
其他文献
随着时代的发展和社会的进步,各行各业都迎来了快速发展的新时期,我国的机械加工行业也取得了很好的发展成果.由于近年来机械加工表面的很多质量问题,严重的影响了零部件功能
现有的消息匹配算法不能很好地满足大规模分布式发布/订阅系统中海量数据的有效分发.为此,提出一种高效 的发布/订阅并行匹配算法.采用B+ 树的存储结构,订阅消息按属性一值进
9月15日22时4分,我国首个空间实验室天宫二号在长征二号FT2运载火箭的托举下,直刺苍穹,成功踏上了太空旅程。天宫二号空间实验室发射升空后,变轨进入高度约384km的运行轨道,进行在
重铬酸钾法测定化学需氧量是常见的一个实验,它是指在一定实验条件下,将工业废水经重铬酸钾进行处理,之后对水中的溶解性物质和悬浮物质消耗的重铬酸钾相对应的氧的质量浓度
为提高射频供能无线传感器网络(RFP-WSN)中无线链路的吞吐率,提出一种链路质量感知的数据传输策略LQADTS。给出自动请求重传机制(ARQM)和分块重传机制(BRM),推导BRM中数据包传输成
电是人们生活当中所不可缺少的其中一部分之一,而在电力的运行与发展当中,电力的安全稳定运行是保障人民生活的重要依据。根据在实践中的工作经验,对于变电运行和管理当中最有可
在分析核辐射探测系统的基础上,本文对系统信号修正问题展开了分析,并提出了仪器修正因子及其测定方法.经过分析发现,采用仪器修正因子,可以有效实现系统信号修正.
各类零件中轴类零件的应用较广,轴上通常安装轴承与传动件,因此对轴的尺寸精度、形位精度及表面粗糙度要求较高.为确保轴的技术要求需要确定好定位基准并安排好工艺路线.
统计信息与会计信息表现为综合与基础的关系,分别满足宏观经济管理及微观经济决策的需要。在“云计算”逐渐成为企业信息化建设主流的趋势下,通过比较与集成创新研究统计信息和
本文对舰船电力系统的可靠性研究的需求和必要性进行了讨论,根据陆地电力系统的可靠性研究的经验和内容在对舰船电力系统的区别和特殊需求进行分析之后,对舰船电力系统的可靠