基于数据访问依赖的分布式机器学习编程模型的优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fh2029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,探索数据蕴藏的价值越来越重要。将传统机器学习方法分布化,以适应越来越庞大的数据规模成为研究热点。现有基于参数服务器架构的分布式机器学习框架得到普遍认同。然而此框架仅提供抽象层次较低的底层数据访问接口,导致其在应用时存在数据访问行为和上层应用之间的耦合性高的问题,使得编程人员不易进行进一步的系统底层优化工作。研究基于数据访问依赖的分布式机器学习编程模型,提供方便部署高并发机器学习应用的编程框架具有重要的理论研究意义和实际应用价值。提出了一种基于数据访问依赖的新型分布式机器学习编程模型。该编程模型将参数服务器的底层数据访问接口进行封装,并将数据访问行为和上层应用进行解耦。首先,将应用逻辑分成不同的阶段,并用有向无环图来描述它们之间的依赖关系;其次将阶段的核心操作设计成针对一块连续区域的键值对进行重复性的操作并且定义相关的模型参数的更新机制;接着对于每个阶段所需的模型参数,提供一种描述数据依赖的方法。通过将有向无环图中的无依赖关系的阶段并行执行,以及将某个阶段内的键值区间自动化地分块和并行执行,提高了系统的并发度。同时通过系统的任务调度策略和参数一致性模型来影响数据传输的行为,进而减少猝发式网络传输造成网络资源带宽竞争现象的发生。这种解耦后的编程模型,既方便了编程,又为进一步地进行底层系统的优化提供了可能。在该分布式系统上部署了基于主题模型的文本聚类分析程序。测试结果表明,系统具有单个物理节点内的多线程可扩展性以及分布式情形下的可扩展性,系统并发度高。同时任务调度策略保证同步开销的时间小于整体时间的15%,表明调度策略减轻了猝发式网络传输对网络带宽资源的影响效果。通过计算评估文本分析模型训练的精确度,表明该系统可以正确地部署机器学习应用。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
市场营销组合策略作为企业市场营销理论体系中的核心组成部分,在指导企业的营销实践过程中发挥了重要作用,其思想应用于求解日益严峻的大学生就业问题,具有重要的借鉴意义.本
目的观察蒙药朱如拉、线叶菊对临床常见致病性真菌的抑菌效果。方法采用药基混合法和琼脂扩散法对常见致病真菌进行蒙药朱如拉、线叶菊体外抗菌活性、最低抑菌浓度测定。结果
拖延症是一种行为,是指一件事请我们明明能够知道这件事对我们不好的,是对我们有害的,但还是要将这件事往后去拖。拖延在我们的生活中普遍存在。轻微的拖延症只是一种坏习惯,
在中国加入世界贸易组织的机遇与挑战面前,企业员工培训不仅更加具有紧迫感和重要性,而且必须适应中国入世后的新形势、新环境,针对入世后出现的新情况、新问题,在企业员工培
重伤的界限是法医临床学的重要研究课题,本文从我室近四年开展活体损伤程度鉴定的3,000多例中,选出7例进行讨论。例1 张××,男,31岁,某年6月30日上午被人用斧背打击
调查分析了国内外15个高空大跨度连廊悬空混凝土结构支模体系的支模方式与跨度、支模方式与悬空高度的关系,以西部多风地区某94.25m高空钢筋混凝土连廊结构为例,拟定3种高空
大型混凝土粮食筒仓滑模施工中,因环境条件易使混凝土养护不充分,导致混凝土强度降低。为此对实际混凝土筒仓工程关键部位的混凝土强度和钢筋各种指标进行试验测试,发现混凝
哈萨克族(Kazak)是生活在我国新疆北部及中亚草原的一支跨国游牧民族,是人口总数仅次于维吾尔族的新疆第二大少数民族。哈萨克人民在生产生活中创造了诸如叙事长诗、阿肯弹唱