基于多叉树和Spark的改进Apriori算法

来源 :信息技术 | 被引量 : 0次 | 上传用户:dududi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中基于Spark和多叉树对传统Apriori算法进行改进,将原始事物数据库转换为布尔矩阵,切割成多个分区数据库后交由Spark的各个Worker节点处理,以多叉树的形式存储中间结果,最后交由主节点进行合并,得到全局频繁项集。将基于Spark实现的Apriori算法同Hadoop环境下的Apriori算法进行性能对比,发现在数据量相同的情况下基于Spark的Apriori算法较基于Hadoop的Apriori算法执行时间减少了67%以上,采用多叉树存储中间结果后,算法执行时间在原来的基础上减少了44%以上
其他文献
由于谐振式电能传输系统的整体性能受功率源所约束,文中提出以最佳频率为参数,通过综合分析后选择功放作为功率源,利用谐振式电能传输子系统作为功放的谐振滤波,构成功放谐振
病例:20岁,患者于1992年6月24日晨,起床后无任何诱因,突感双耳发闷,耳鸣,听力下降,次日双耳失听,伴有食欲减退,乏力。于25日入耳科治疗。平素健康,否认感冒及其它病史。查体:
为了保证柔性涂装输送线的稳定运行, 提出了一种控制器故障报警与故障诊断相结合的方法.故障报警系统利用P L C 控制系统故障检测方法快速定位故障点, 运用T C 3 5 模块发送
自动引导车(AGV)的路径规划是智慧仓储系统的核心和热点研究课题,文中提出了一种基于改进A*算法的多AGV物流分拣系统无碰撞路径规划方法。利用网格方法描述了AGV智慧仓储的作
今年两会期间,“节能减排”成为热门话题。一时间,代表热议、媒体聚焦、公众关心、领导关注。4月19日,在全国铁路第六次大提速的次日,国家统计局发布2007年一季度国民经济运行情
阀厅及换流变区为换流站的核心区域,是换流站设计的重点。对从化换流站采用一字型布置方案与江门换流站采用面对面布置方案,从占地面积、与周边区域适应性、噪声控制等方面进
随着我国社会经济的不断发展,数控技术得到了迅速的发展与进步。目前,我国对于数控技术人才的需求相当紧缺。数控技术的推广及普及,社会生产对数控技术人才的需求也日益激烈。如
近十年来,我国职业教育规模进一步扩大,特别在实施国家技能型人才培养培训工程,各地在加快生产、服务一线急需的技能型人才的培养上越来越认识到职业教育发挥着重要作用,服务
移动互联网时代,用户的在线认证密码不断增多,导致记忆困难。移动端密码管理器是帮助用户管理各种密码并实现跳转填充功能的应用软件。已有的众多Android端密码管理器广泛使
本课题面向一条工业制镜线进行生产计划稿制方法的探究。根据工业制镜的工艺与设备确定其生产能力,进行了生产计划鳊制方造的研究,使编制的生产计划具有可实施性。