基于Spark的MapReduce相似度计算效率优化

来源 :计算机科学 | 被引量 : 0次 | 上传用户:mydoself
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的2
其他文献
小学作文教学是语文教学的"老大难"问题。信息技术与学科的整合是教育的趋势。维基比博客更具易用性、开放性、共享性,对于信息的积累、共享、交流、传播和再创造有着得天独
毛主席在1958年11月郑州会议上,在1959年8月庐山会议上,两次向全党干部建议读书,读斯大林写的《苏联社会主义经济问题》和苏联科学院经济研究所编写的《政治经济学教科书》第
在成人教学中,教师应用情绪理论激发学员学习积极性,主动调适成人学习状态,促成个人经验和学习内容的结合,在实践中很有意义。学习是一个交流互动的过程,巧用情绪调动学习者
以碘吸附值、亚甲基蓝吸附值及活性炭得率为考察指标,选取对糠醛渣活性炭性质影响较大的浸渍比、磷酸质量分数、活化温度、保温时间4个因素进行L16(45)正交试验对磷酸活化法制
本文对露天焚烧秸秆屡禁不止的原因进行了分析,认为小秸秆暴露了农业生产方式转变过程中农业社会化服务存在的短板。作为政府,要破解这个难题,必须设身处地为农民着想,出台让
利用四肢长骨借助于判别分析的方法,进行性别判定,国内外学者已有报道,但报告的方法复杂,使用不方便。尤其是利用国人材料的研究结果,仅使用了左侧肢骨的测量数据,使其在实际应用中
目的:观察补肾暖宫法联合艾灸治疗黄体功能不全所致不孕症的临床疗效。方法:将江西中医药大学附属医院妇科门诊就诊的黄体功能不全所致不孕症患者90例采用随机单盲法随机分为3
在大学物理教学中,关于圆盘状物体的物理量有很多,如电学中带电圆环、带电圆盘,其周围空间产生的电场强度和电势怎样计算?关于铜质圆盘状物体在磁场中转动时产生的电动势的计
患者,男,16岁。4年前曾因感冒发热不退,就医后确诊为“先心病、右室流出道狭窄并主动脉瓣狭窄、心内膜炎形成”,输用抗菌素后治愈。2006年3月又出现发热不退,住院输用抗菌素40余天
在色谱定量分析中,精确定位色谱新方法.利用标尺与色谱曲线的交点寻找色谱曲线的拐点,进而找到色谱峰,再结合气体组分时间窗参数,确定气体组分.方法快速、准确,不需要人工干