【摘 要】
:
随着互联网技术的快速发展,人们积累的数据量越来越大,数据的规模已经从之前的GB级别,上升到TB甚至PB。为了发现数据中的潜在价值,通常的做法是根据实际情况,灵活的运用各种
论文部分内容阅读
随着互联网技术的快速发展,人们积累的数据量越来越大,数据的规模已经从之前的GB级别,上升到TB甚至PB。为了发现数据中的潜在价值,通常的做法是根据实际情况,灵活的运用各种数据挖掘算法。尽管数据挖掘在传统的小数据集上已经得到了充分的利用和发展,证明了其价值和指导意义,但是在大数据集上,数据挖掘算法的实施面临着执行效率、算法并行化、平台易用性等方面的重大挑战。本论文是一篇工程性论文,调查并研究了众多相关开源解决方案,最终基于Spark作为引擎核心和编程模型,设计并实现了部分并行化数据挖掘算法,并且构建了一个易用、高效的大数据挖掘引擎系统。从总体上看,本文完成了以下工作:(1)调研了两种主要的大数据并行计算模型一一以MapReduce为编程范式的编程模型和以内存计算算子为编程范式的编程模型。通过比较其计算效率、编程接口丰富程度和友好性等方面,确定了采用内存计算的方式,并以Spark作为大数据处理的核心引擎。(2)基于Spark的内存计算模型及其提供的若干个动作、转换算子,完成了两个传统数据挖掘算法一-Apriori和PageRank的并行化改造。通过实验验证了这两个算法的执行效率和并行化效果。(3)设计了大数据挖掘平台,以平台即服务的方式提供大数据计算资源,提供了远程过程调用的开发工具包(SDK)。解决了易用性、跨平台、多用户并发控制等问题。通过以上工作,实现了一个完整的大数据挖掘系统,为数据挖掘算法在大数据集上的实施提供了高效、易用的利器。
其他文献
手势识别是计算机“以人为中心”的产物,通过识别视频图像中人的手势,完成计算机中的一些特定的操作。与传统的输入设备(键盘、鼠标等)相比较,手势具有易操作、自然和友好等
建立供水管网水力模型,是供水企业实现管网信息化管理的有效措施之一。在模型建立的过程中,需严格控制基础数据收集整理、拓扑结构简化、现场测试、模型校验等步骤,同时,该过
随着公民社会的形成与完善,民众政治参与的渠道也日益多样化,其中网络政治参与就是一种新型的政治参与渠道。当然,网络政治参与也有其一定的弊端和局限性,例如在政治参与中信
<正>目前,社会办医疗机构的数量已占各种所有制医疗机构总量的半数以上,且仍有不断上升的趋势,成为满足群众多层次医疗卫生服务需求的重要生力军。但是,这些医疗机构在战略构
在回顾现代理论产生和发展的基础上,对越南的国有企业改革作了分析,提出越南国有企业的改革要从企业的所有权和剩余索取权上下手,提高企业的自生能力.
<正>由于能源基础设施不完善,我国能源贫困人口约占45%。如何识别贫困人口及展开能源扶贫工作是当前脱贫攻坚中需要关注的核心问题。随着中国经济的高速发展,居民的各项需求
石林旅游一直以来都陷于“门票经济”的传统模式,这样的模式显然与旅游市场的发展趋势相悖,且对石林的社会经济发展也起不到助推作用。为使石林走出“门票经济”这一存在缺陷
幼儿园美术教育要唱好"三部曲"。一是唱好"兴趣曲"——激发幼儿学习兴趣;二是唱好"信息曲"——巧用多媒体设备;三是唱好"游戏曲"——美术教学游戏化。
<正>经过二战后二三十年的经济恢复和高速发展,在发达国家范围内,资本主义生产方式和阶级关系已扩展至全社会的各个方面,剩下的一小部分非资本主义生产方式甚至也披上了资本
随着我党十七届五中全会的胜利召开,深入学习并应用会议精神成为广大党员干部的首要任务。本文主要从历史角度出发,挖掘加强党史教育在我国党建工作中的重要性,并着力探讨如