SparkSql上自适应数据集的高效频繁集挖掘算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:snake840321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验
其他文献
在全面推进素质教育的今天,"以人为本"的理念已深入人心。强调以人为本,就不能回避人的差异问题。在当前的教育体制下,学困生将自然存在,尤其是数学学科的学困生。重视对学困
目的:探讨胆道外科医生对护理人员临床实践能力的要求与期望,为深入开展护士临床实践能力培训提供参考依据。方法:采用质性研究中的现象学研究方法,对11名胆道外科医生进行半
期刊
诗性思维是一种想象力极为发达的思维,早期的神话故事便是诗性思维的产物。在当代高中语文写作教学中,诗性思维能够让学生更好的解读课文,学习写作中的技巧。能够更好地适应
目的比较不同联合用药方案治疗小儿支原体肺炎的临床疗效。方法将126例支原体肺炎患儿按照随机对照原则分为A、B两组,每组各63例,A组患儿给予喜炎平联合阿奇霉素治疗,B组患儿
<正>妇科急腹症是妇科最常见的急诊疾病,且起病急,危机生命。本文对130例妇科急腹症的超声诊断结果分析,目的在于阐述超声诊断在妇科急腹症临床中的应用价值和提高超声诊断的
会议
通过齿面方程精确计算齿面网格节点坐标,根据网格节点密度要求,均匀划分网格节点,对齿根过渡曲线网格进行加密处理,直接导入有限元软件生成精确的弧齿锥齿轮啮合传动的有限元
随着经济全球化进程的加快,国际贸易合作往来日益频繁,社会对熟知国际商贸规则、熟练运用英语进行商贸往来的综合型国际贸易人才的需求持续增加。本文旨在通过分析当前国贸学
本论文首先阐述了中国铜行业的现状,期铜市场的发展状况,套期保值的原理、作用及意义。进而详细分析了江铜集团套期保值的成功案例:包括介绍集团历史、主营业务及其风险敞口