【摘 要】
:
地理分布式机器学习通常采用参数服务器框架训练全局模型。为了高效处理分散的训练数据,每个任务的计算节点和参数服务器节点都分布在不同的数据中心上。然而,当面对大规模的训练数据和复杂的模型参数时,地理分布式机器学习任务需要部署大量的计算节点和参数服务器节点,远远超出了本地小规模集群的计算与存储能力,只有借助云端资源才能完成复杂的训练任务。为了充分整合不同云平台上的云资源、降低用户训练成本,用户倾向于向云
论文部分内容阅读
地理分布式机器学习通常采用参数服务器框架训练全局模型。为了高效处理分散的训练数据,每个任务的计算节点和参数服务器节点都分布在不同的数据中心上。然而,当面对大规模的训练数据和复杂的模型参数时,地理分布式机器学习任务需要部署大量的计算节点和参数服务器节点,远远超出了本地小规模集群的计算与存储能力,只有借助云端资源才能完成复杂的训练任务。为了充分整合不同云平台上的云资源、降低用户训练成本,用户倾向于向云服务代理提交任务请求。当提交给云服务代理的地理分布式机器学习任务增多时,如何在保证训练总成本最低的情况下高效地部署所有任务,成为一个关键性难点与挑战。
本文提出了一种基于地理分布式机器学习任务的云服务代理者模型。该云服务代理者收集当前时刻所有训练任务请求,统一向云平台租赁相应资源,并且为这些任务的提供动态的调度策略。为了保证所有任务的训练总成本最低,我们将该资源调度问题建模成一个数学优化问题。同时,为了求解出该优化问题中所有任务的数据迁移策略、计算节点和参数服务器的放置方案,我们设计了一个高效的在线调度算法:首先,它通过使用正则化技术(Regularization)能够将复杂的在线问题解耦成一系列独立的、单个时隙内可解的优化问题;接着,它利用精心设计的在线依赖取整算法(Online Dependent Rounding Method)将前一步的分数解转化为符合实际物理意义的整数解。根据严密的理论分析与证明,我们的在线算法可以获得一个较优的竞争比;并且通过仿真实验研究可以发现,本文提出的算法与同类型调度算法相比可节省至少20%的成本开销,进一步体现了该在线算法的良好性能。
本文提出的在线调度算法,为调度地理分布式机器学习任务提供了一种新的方法和技术思路,可以在满足用户训练需求的同时有效地减少训练成本,提高资源利用率与系统性能。
其他文献
中医在我国医疗体系处于重要地位,几千年来为民族繁荣和人民健康做出了巨大贡献,特别在最近的新冠疫情(COVID-19)中,中医诊疗技术发挥了重要作用。在“人工智能+”的大背景下,智能中医技术的研究能为中医打开智能化发展的新格局。中医知识体系庞大且错综复杂,医师严重依赖大量临床经验。将中医知识库融合多源体征信息,嵌入中医领域知识,再进行全过程高效、客观的健康管理是智能中医研发的必然趋势。 本文的研究
本文探讨了生命科学领域的一个热点问题—-疾病标志物识别,并且采用计算机科学领域网络分析方法解决该问题,这种交叉研究使其在理论和应用层面上都具有巨大的研究价值和科学意义。生物体是存储并加工信息的复杂系统,而该系统的核心是其组成成分准确地行使各自的功能并且相互协调合作,疾病的产生和发展往往是分子之间调控机制异常导致的,因此,设计有效的数学分析方法发现疾病相关的分子调控机理(疾病标志物),对疾病深入了解
视图合成作为计算机视觉领域的一项热门的研究,在虚拟现实、场景三维展示、2D视频转3D视频等领域应用广泛,为传统的图像和视频媒体提供了更为生动的信息展示方式。作为其中的关键性技术,深度估计为视图合成提供了场景的几何信息和从已知视图中采样的依据,其质量直接决定了视图合成的效果。 传统的基于多视图立体几何的深度估计方法依赖于特征点匹配算法,在真实世界中复杂的自然场景下拍摄的图片经常会出现光照不一致或者
随着互联网和移动通信技术的不断发展,我们所面临的信息过载问题也日益严重,而文本自动摘要技术作为有效解决该问题的方法之一,一直以来都是自然语言处理领域的研究热点。目前,语音识别和自然语言处理联系紧密,而经过语音识别系统输出的文本也会面临各种各样的自然语言处理任务。因此,本文研究一种语音识别场景下的生成式短文本自动摘要方法,以探究文本自动摘要技术在复杂场景下的可行性。 本论文的研究内容分为了两部分:
随着互联网的快速发展,Web服务器的安全问题也愈发重要。网络攻击行为的层出不穷使得构建Web服务器入侵检测系统迫在眉睫。用于Web服务器入侵检测中的免疫算法目前主要有树突状细胞算法和反向选择算法两种。前者虽然能检测到未知类型的入侵行为,但信号提取的不准确性导致了误报率较高;后者是一种单类学习算法,对训练过的入侵类型检测结果较好,但无法检测出未知类型的入侵行为。 上述两种免疫算法存在的问题与其模拟
心血管疾病(cardiovascular disease,CVD)一直是人类健康的首要威胁。目前临床上,医生通常使用心电图(electrocardiogram,ECG)进行诊断。与此同时判断心电图是否异常是一项非常专业的工作,因此需要具有丰富理论知识和丰富临床经验的医生,但是目前心血管疾病医生数量不足且工作强度大。因此,开发快速,准确的算法十分重要。尽管目前已经提出了很多自动判别心电图的算法,但是
如今,机器学习已成为必不可少的数据分析技术,该技术可从大规模数据集中获取有用的信息。传统机器学习在单个机器上训练和处理数据。随着大数据时代的到来,单个机器无法满足机器学习任务庞大的存储和计算需求。于是,分布式机器学习应运而生。机器学习庞大的训练数据集和复杂的训练模型被划分为多个部分分布式地部署在多台机器上,并发地训练数据。大多数领先的IT公司都部署和维护着基于GPU服务器的分布式机器学习集群。分布
软件无处不在。为了满足人的需要,并提升自身质量,软件在整个生命周期会进行多次修改。这些修改可能会引入缺陷,对软件的正常运行产生影响。因此软件质量的保证成为了重中之重。诸多学者对如何保证软件质量进行了深入研究,其中很重要的一个方面是如何消除缺陷。针对缺陷已经发展出了缺陷定位、缺陷预测和缺陷自动修复等研究方向。在缺陷预测领域,实时缺陷预测技术是近年来出现的重要方向。这种技术专注于细粒度预测,追求用最小
心血管疾病长期以来一直对人类健康造成了巨大的威胁,而心电图(ECG)有效的帮助了心血管疾病的诊断,在医生的诊断过程中起着无可替代的作用。据悉培养一个成熟的心电图专家需要花费数十年的时间,并且在医生的诊断过程中,阅读每一张心电图也需要耗费几十分钟,而长时间的阅片很容易造成误判。随着近年来大数据和人工智能技术的快速发展,利用AI帮助医生进行辅助诊断已经成为了必然趋势。 当前有关心电图辅助诊断的研究基
医学知识图谱是人工智能技术在医学领域的研究热点之一。人们健康意识的空前提高使得当前使用因特网进行医学知识普及的趋势逐年升高。与之相对的是,当前互联网上的医学知识信息普遍存在着质量不佳的问题。随着知识图谱在医学领域的应用,使得医学知识在一般人群中普及成为可能。医学知识图谱在为人们提供直观、准确的医学知识的同时,也在一定程度上缓解了我国优质医疗资源紧缺的局面。 本文提出了一种基于文本的医学知识图谱构