基于数据访问依赖的分布式机器学习编程模型的优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：fh2029

【摘要】

：

随着大数据时代的到来,探索数据蕴藏的价值越来越重要。将传统机器学习方法分布化,以适应越来越庞大的数据规模成为研究热点。现有基于参数服务器架构的分布式机器学习框架得

【作者】

：

曹镇山

【出处】

：

华中科技大学

【发表日期】

：

2016年期

【关键词】

：

分布式机计算机器学习编程模型数据访问依赖

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,探索数据蕴藏的价值越来越重要。将传统机器学习方法分布化,以适应越来越庞大的数据规模成为研究热点。现有基于参数服务器架构的分布式机器学习框架得到普遍认同。然而此框架仅提供抽象层次较低的底层数据访问接口,导致其在应用时存在数据访问行为和上层应用之间的耦合性高的问题,使得编程人员不易进行进一步的系统底层优化工作。研究基于数据访问依赖的分布式机器学习编程模型,提供方便部署高并发机器学习应用的编程框架具有重要的理论研究意义和实际应用价值。提出了一种基于数据访问依赖的新型分布式机器学习编程模型。该编程模型将参数服务器的底层数据访问接口进行封装,并将数据访问行为和上层应用进行解耦。首先,将应用逻辑分成不同的阶段,并用有向无环图来描述它们之间的依赖关系;其次将阶段的核心操作设计成针对一块连续区域的键值对进行重复性的操作并且定义相关的模型参数的更新机制;接着对于每个阶段所需的模型参数,提供一种描述数据依赖的方法。通过将有向无环图中的无依赖关系的阶段并行执行,以及将某个阶段内的键值区间自动化地分块和并行执行,提高了系统的并发度。同时通过系统的任务调度策略和参数一致性模型来影响数据传输的行为,进而减少猝发式网络传输造成网络资源带宽竞争现象的发生。这种解耦后的编程模型,既方便了编程,又为进一步地进行底层系统的优化提供了可能。在该分布式系统上部署了基于主题模型的文本聚类分析程序。测试结果表明,系统具有单个物理节点内的多线程可扩展性以及分布式情形下的可扩展性,系统并发度高。同时任务调度策略保证同步开销的时间小于整体时间的15%,表明调度策略减轻了猝发式网络传输对网络带宽资源的影响效果。通过计算评估文本分析模型训练的精确度,表明该系统可以正确地部署机器学习应用。

其他文献

云峰山郑文公下碑

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

云峰山

市场营销组合策略对21世纪大学生就业的启示

市场营销组合策略作为企业市场营销理论体系中的核心组成部分,在指导企业的营销实践过程中发挥了重要作用,其思想应用于求解日益严峻的大学生就业问题,具有重要的借鉴意义.本

期刊

市场营销组合策略大学生就业产品策略价格策略渠道策略促销策略21世纪marketing mix strategy graduates emplo

蒙药朱如拉及线叶菊抑真菌实验研究

目的观察蒙药朱如拉、线叶菊对临床常见致病性真菌的抑菌效果。方法采用药基混合法和琼脂扩散法对常见致病真菌进行蒙药朱如拉、线叶菊体外抗菌活性、最低抑菌浓度测定。结果

期刊

蒙药红色毛癣菌马拉色菌

关于当代大学生拖延症的研究

拖延症是一种行为,是指一件事请我们明明能够知道这件事对我们不好的,是对我们有害的,但还是要将这件事往后去拖。拖延在我们的生活中普遍存在。轻微的拖延症只是一种坏习惯,

期刊

当代大学生拖延症成因拖延症危害拖延症的解决办法

企业员工培训：入世后的改革与创新

在中国加入世界贸易组织的机遇与挑战面前,企业员工培训不仅更加具有紧迫感和重要性,而且必须适应中国入世后的新形势、新环境,针对入世后出现的新情况、新问题,在企业员工培

期刊

企业员工培训入世改革创新employee trainingWTOreforms and innovations

易误判为重伤案例的讨论(附7例报告)

重伤的界限是法医临床学的重要研究课题,本文从我室近四年开展活体损伤程度鉴定的3,000多例中,选出7例进行讨论。例1 张××,男,31岁,某年6月30日上午被人用斧背打击

期刊

粉碎性骨折骨折端石膏夹板外固定开放性骨折手法复位法医临床学左前臂对位对线假关节形成拇长屈肌

鼓励居民消费是拉动经济增长的重要因素

期刊

居民消费经济增长对策

高空大跨度连廊悬空结构支模体系选型和结构设计

调查分析了国内外15个高空大跨度连廊悬空混凝土结构支模体系的支模方式与跨度、支模方式与悬空高度的关系,以西部多风地区某94.25m高空钢筋混凝土连廊结构为例,拟定3种高空

期刊

混凝土悬空结构支模体系结构设计数值模拟

滑模施工混凝土粮食筒仓结构承载力分析

大型混凝土粮食筒仓滑模施工中,因环境条件易使混凝土养护不充分,导致混凝土强度降低。为此对实际混凝土筒仓工程关键部位的混凝土强度和钢筋各种指标进行试验测试,发现混凝

期刊

混凝土筒仓滑模安全性承载力

哈萨克族民间图案艺术研究

哈萨克族(Kazak)是生活在我国新疆北部及中亚草原的一支跨国游牧民族,是人口总数仅次于维吾尔族的新疆第二大少数民族。哈萨克人民在生产生活中创造了诸如叙事长诗、阿肯弹唱

学位

哈萨克族图案研究丝绸之路草原文明李格尔

基于数据访问依赖的分布式机器学习编程模型的优化

与本文相关的学术论文