梯度下降类和EM类迭代算法的并行化研究

被引量 : 0次 | 上传用户:fcgmqty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的爆炸性增长已经成为目前机器学习和数据挖掘领域中的重要问题。面对如此迅速增长的数据,一般数据挖掘算法可能已经不再适用,需要设计并行化的算法并利用集群来并行化处理。在算法的并行化中,迭代类型的算法因为它所具备的特征不仅是计算密集型也是数据密集型,从而具有一定难度。研究有效和合理的并行化算法,已经势在必行。目前有许多并行化技术,MapReduce是目前较好的并行手段之一。结合Hadoop并行计算环境,算法研究人员能够集中精力在并行算法研究本身上。本文基于Hadoop MapReduce编程框架对海量数据处理中迭代类算法进行了并行化研究,从Pegasos算法着眼研究随机梯度下降类算法的并行化,从Kmeans算法的并行化着眼研究期望最大化类算法的并行化,给出实验和分析,总结这两类算法的并行化特征和难点,并给出并行思路。研究工作和成果主要如下:(1)对目前的数据挖掘算法并行化方法进行分析,着重探讨迭代类算法并行化思路,并分析并行算法的评价指标。(2)提出了一种针对海量数据的并行化Pegasos算法P-Pegasoso迭代类算法中梯度下降算法是一种常见的优化算法。P-Pegasos算法将并行化随机梯度下降算法的思想应用进来,首先将分布在各个计算节点上的海量数据并行随机打散成若干份数据子集。接着,再在每一份数据子集上执行基于随机梯度下降的Pegasos算法得出若干个局部优化结果,最后将这若干个结果进行均值融合得到最终结果。通过大量实验说明该算法是正确有效的,比其他并行化算法速度快,而且具有很好的加速性能和效率。同时进一步说明了梯度下降类算法的并行化具有很好的并行性能。(3)提出了一种针对海量数据的并行化Kmeans算法MR-P-Kmeanso Kmeans算法是另一常见的优化算法期望最大化算法的变种算法。MR-P-Kmeans通过不断重复的MapReduce作业完成Kmeans的迭代过程,直到Kmeans算法收敛。该算法能够完成单机Kmeans算法所不能完成的海量数据聚类任务,并且也有较好的加速效果和效率;同时该算法也存在着一定缺点,即时间相对较长,仅适用于无须太多迭代步骤就能快速收敛的EM类算法。
其他文献
目前,对于正畸和正颌外科医生而言,X线头影测量分析是患者诊断、治疗的重要依据,而对于患者来说,特别是年轻成人,他们在功能改善的同时更期望获得面型的美观。然而多项研究表明,面
介绍了Ф159mm连轧管机组步进式冷床的生产工艺及其动作原理,推导出一套适用于该类型冷床齿形设计的公式。利用该公式可从理论上和设计实例上优化冷床齿形设计,并可借助Excel
<正>原发性肾病综合征(primary nephrotic syndrome,PNS)是内科常见疾病,目前治疗以激素为基础,且多主张长程治疗,然而不良反应发生率高,且仍有较高复发率,如何提高疗效,减少
改革开放以来,随着社会主义市场经济体制的逐步建立,大批农民工涌进城市(其中包含有大量重点人口),使得城市治安变得越来越复杂。为了更好地管理外来重点人口,笔者提出外来重
农业经济的增长需要农村金融的支撑,而农村金融的发展还需要依靠农业经济的增长才能够壮大,这两者之间相辅相成,彼此之间有着十分密切的关系。从相互促进和相互约束两方面,对
结合南京地铁曲线斜拉桥结构特点和受力特性,着重介绍了异形塔柱施工过程中的关键技术,可为同类工程提供参考.
<正>随着人事制度的不断完善,人事档案管理可在实体管理机构的设立上进行一些新探索,笔者认为,可尝试的方法是建立区域性的人事档案管理中心。建立区域性的人事档案管理中心,
检测Ⅱ型糖尿病猕猴部分靶器官中Ⅰ型辅助T细胞(Th1)因子IL-2和IFN-γ以及Ⅱ型辅助T细胞(Th2)因子IL-4、IL-10的表达及分布变化情况,研究Th1/Th2型细胞因子在Ⅱ型糖尿病发病中的
环氧沥青因其优越的高温稳定性和抗变形能力在工程实践中得到广泛应用,但目前工程中所使用的国产环氧沥青普遍存在施工适应性差的问题,主要体现在施工时间与温度要求苛刻和开
通过对德化县生态环境现状调查,摸清当地生态环境状况,为合理、科学地利用自然资源,遏制生态环境破坏,减轻自然灾害的危害,维护生态环境安全,实现自然生态系统的良性循环,促