基于MapReduce的多维迭代算法的研究与实现

被引量 : 1次 | 上传用户:superyoumyhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迭代计算是对一系列的计算步骤进行反复执行,并将前一次迭代计算得到的结果作为下一次迭代计算的输入,逐渐接近希望得到的目标或结果的计算方法。当迭代计算结果收敛或满足其他计算终止条件时,即认为迭代计算结束,并输出最终的结算结果。由迭代理论可知,当迭代计算函数不满足Lipschitz条件时,迭代结果易收敛到局部最优解。为了解决这一问题,常常采用多组初始输入数据进行多次迭代计算,并从得到的多组结果中,选取质量最好的结果作为迭代计算的最终计算结果。迭代计算是串行地处理多组输入数据,因此会消耗大量的运算时间,并且各次迭代计算之间缺少数据共享。因此,在多组初始输入数据情况下,提高迭代计算的并行处理能力及数据共享能力成为了关键。MapReduce计算框架具有较强的并行处理能力和数据共享能力,并且能够轻松应对大规模数据集的处理任务。本文立足于大规模数据集下利用多组输入数据进行迭代计算的需求,应用MapReduce计算框架提出了多维迭代算法,以提高迭代计算的执行效率。论文的主要工作如下:(1)在多组输入数据情况下,针对传统的迭代算法的运算缺点,我们提出了多维迭代算法的概念。通过对一次迭代计算流程的改进,降低多组输入数据情况下迭代计算的运行时间。同时,利用多维迭代算法,增强迭代计算过程中不同迭代计算过程间数据的共享能力,降低对数据集的读取次数。根据MapReduce计算框架的工作流程,应用MapReduce编程框架针对多组输入数据的情况,编写了多维迭代算法的程序。(2)将Kmeans聚类算法与多维迭代算法进行结合,提出了Mux-Kmeans算法。在分析了Kmeans聚类算法的运行原理后,针对其易收敛到局部最优解的缺点,使用多维迭代算法对其进行了改进。利用三个真实的数据集,在AmazonEC2云平台上,针对Mux-Kmeans的运行效果及计算耗时进行了实验。将Mux-Kmeans的实验结果与相同输入数据下Kmeans的实验结果进行比较,证实了Mux-Kmeans具有提高迭代计算的运行效果及降低计算耗时的作用。(3)将EM聚类算法与多维迭代算法进行结合,提出了Mux-EM算法。在分析了EM聚类算法的运行原理后,针对其易收敛到局部最优解的缺点,使用多维迭代算法对其进行了改进。利用两个真实的数据集,在本地虚拟云平台上,针对Mux-EM的运行效果及计算耗时进行了实验。将Mux-EM的实验结果与相同输入数据下EM的实验结果进行比较,证实了Mux-EM具有提高迭代计算的运行效果及降低计算耗时的作用。通过实验验证,证明了本文提出的多维迭代算法对于在多组输入数据情况下,提高迭代计算效率的可行性和正确性。
其他文献
慢性萎缩性胃炎(CAG)是以胃黏膜固有腺体萎缩、黏膜变薄、黏膜肌层变厚、胃酸分泌减少或伴肠上皮化生或假幽门腺化生为其病理特点的疾病,中医辨证治疗有明显的优势,笔者通过
<正>2010年中国皮革业发展论坛暨中国皮革协会制革专业委员会年会通过"淘汰与挑战"和"创新与嬗变"两个主题论坛,让业界同仁与政府官员在主办方倾力打造的信息交流和脑力激荡
针对城市土壤重金属的污染由重金属污染物传播特征与连续扩散原理决定,建立了大气高斯扩散模型.代入相关数据后,利用MATLAB软件求解出污染源的具体坐标,有利于从根本上解决污
<正> 枣锈病Thakopsora zizyphi-rulgais Diet发生在我国山东、河北、河南数省的产枣区。我省内黄、新郑一带发生严重。根据安阳地区林业局统计,内黄枣区在1970,1975,1977三
<正>学生已经学习了直线方程的四种形式(点斜式、斜截式、两点式、截距式),为什么还要学习直线方程的一般式?如何来探究和学习直线方程的一般式?本文给出课堂教学的主要过程,
动点问题是近些年来各个省市中考题中的热点问题,也是考查学生各个方面能力的一类问题。若要完成此类问题的解答,不仅要求学生会运用各个方面的知识解答相关问题,而且还要求
本文阐述了当代大学生对足球运动的兴趣因素,了解当代大学生足球运动对其的影响,并且分析了其中的原因和提高当代大学生足球兴趣因素的分析。使当代大学生全面提高体育健身观
八段锦始于晋代之说尚须考证楚雪丝最近从本刊1994年第一期看到《八段锦始于晋代》这篇文章(以下简称《文章》,对八段锦的起始,提出了新的看法,将过去一般认为始见于宋提前至晋代。如