可扩展机器学习关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mingtiandetianming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据量的激增迫切需要对可扩展机器学习关键技术的研究,而当前丰富的计算资源又为可扩展机器学习提供了机遇。为实现可扩展机器学习,本文从高效算法设计和并行与分布方法两条技术途径入手,对机器学习如何有效应对大数据挑战展开深入研究。基于算法与系统的协同设计,在保证精度的前提下,有效提高了机器学习的速度,增强了机器学习在计算和内存方面的扩展性,取得了以下几个方面的研究成果:
  1.提出了两种数据和模型并行极限学习机,即LDMP-ELM和GDMP-ELM。LDMP-ELM运行更快且更易实现,而GDMP-ELM能够支持更大模型,二者优势互补,统称为DMP-ELMs。DMP-ELMs因解决了现有方法中存在的计算和内存瓶颈而具有更好的可扩展性,能够处理大规模数据集、支持大量隐层节点。这得益于DMP-ELMs同时使用数据并行和模型并行方法来提高ELM的并行性,主要是利用矩阵分块与分布矩阵计算实现,并充分利用了ELM随机生成隐层参数的特性。DMP-ELMs完全基于超级计算机的软件栈,如MPI等进行开发。在实验中将算法成功扩展到128个节点,能有效处理数据和模型大到无法载入单机内存的情况。尽所知,这是第一次成功地在有着810万个样本和784维特征的mnist8m数据集上训练出一个具有5万个隐层神经元的大ELM模型。目前多数并行与分布机器学习研究集中于商用计算集群,基于超算系统的研究还较少,该工作是完全基于超算软硬件系统进行并行与分布机器学习的一项探索研究。
  2.提出了一种基于方差缩减的分布异步随机梯度下降方法,即DisSVRG。DisSVRG将方差缩减技术和异步通信协议有机结合,采用方差缩减梯度更新模型参数,并使用异步通信协议在集群节点间共享新学到的参数。另外,提出带有加速因子的自适应学习率,加速DisSVRG。同时,提出一种自适应采样策略,大大减少了迭代过程中由straggler问题引起的等待。另一方面,在发现超算软件栈进行并行与分布机器学习研究抽象层次过低的问题后,使用兴起于商用计算集群的参数服务器计算框架,将其迁移到超算生态圈,而参数服务器底层又使用MPI通信,这样两种计算框架得以融合。实质上参数服务器此时可看作是在MPI基础上又进行了一层封装,提供适于机器学习的抽象层次更高且更简洁的编程模型。而通过对参数服务器的分析、使用、再开发,极大简化了DisSVRG的实现。
  3.提出了两种分布可扩展的k-means聚类方法,即Scalable Lloyd’s K-Means和Scalable Mini-Batch K-Means。两者都能基于数据并行技术和参数服务器系统扩展超越单节点的计算和内存限制。前者能够找到更高质量的解,而后者能够更快收敛到一个合适的解。它们都具有良好的可扩展性并完全进行内存计算。此外,为Scalable Mini-Batch K-Means提出了一个新的聚合方法使得分布聚类能够收敛。大量实验表明提出的算法具有良好的收敛性能并能达到几乎线性的加速比,例如使用分布在4个计算节点上的16个CPU核进行计算时,可以达到14倍左右的加速比。在此项研究中,将前述研究的并行与分布随机梯度下降优化算法用于求解k-means聚类问题,仍然在超算系统中基于参数服务器实现,进一步证明了这种软件栈融合的通用性。
  4.提出了两种基于方差缩减的k-means聚类方法,即VRKM和VRKM++。具体来说,首先提出了一种位置校正机制来校正在基于方差缩减优化k-means问题时的聚类中心漂移问题,并使用常数学习率来更新k-means中的参数。在此基础上,提出了方差缩减k-means,即VRKM。进一步,通过理论推导优化VRKM,降低其计算成本,进而提出一种新的方差缩减k-means,即VRKM++。与VRKM相比,VRKM++可以避免计算批量梯度,减少计算量,因而效率更高。两种方法都在超算系统的单节点上串行实现。大量实验表明,提出的VRKM和VRKM++方法性能优于当前水平,并分别获得大约2倍和4倍的大规模聚类加速。在本项工作中,从高效算法设计角度入手,在不占用更多计算资源的情况下,增加k-means聚类的可扩展性。
  5.提出了一种基于局部敏感哈希的近似k-means方法,即LSH k-means。其在样本点上建立局部敏感哈希(Locality-Sensitive Hashing,LSH)索引,而不是在聚类中心上建立索引。具体而言,LSH k-means首先建立LSH哈希表,使得相互靠近的样本点有更大可能被哈希到相同的桶中。然后将聚类中心作为查询,从LSH表中查询其潜在近邻样本点。之后LSH k-means引入一个指示矩阵,其能将聚类中心的潜在近邻样本点转换为样本点的潜在近邻聚类中心。最后,各样本点可以在指示矩阵的引导下不用与所有聚类中心计算距离就能找到其最近聚类中心。此外,提出了一个自动调参策略,在构建于指示矩阵的两个指标的帮助下自动地确定LSH k-means的超参数。在三个数据集上进行的大量实验表明所提算法具有良好的收敛性能并实现了显著的加速。该项工作在工作站上串行实现,继续从高效算法设计角度入手,研究低资源占用高可扩展的方法。
其他文献
图象分割就是把图象空间划分成若干个具有某些一致性属性的不重叠区域.它是图象分析与理解的基础,是计算机视觉领域中最基本最困难的问题之一.这是因为至今没有一种方法适合所有分割问题,不同的问题必需寻找不同的方法.该文对三类不同的问题:一般图象分割理论、脑白质病变核磁图象、细胞显微图象的分割进行了深入的研究,并对于这三类不同的问题分别提出不同的解决方法.
学位
随着各个行业数据量的增加,数据外包存储得到了飞速发展。但是目前数据外包存储仍然存在较大的安全问题,云存储作为一种新型数据外包方式,自然存在较多的安全性问题。与传统的托管在服务器端的外包存储不一样,云存储相对更加开放、数据更易被攻击者轻易获取,这样数据外包存储在云端更容易遭受各种攻击和威胁。目前,数据外包存储面临的主要问题即是安全性问题。在另一方面,当前云环境下的隐私数据保护方法大都采用传统的加密技
学位
随着信息技术的快速发展,万物互连正在加快实现。物理域组件和信息域组件正在加快融合,形成信息物理系统(Cyber-Physical System,CPS)。  许多大规模的信息物理系统如智能电网、智能交通和智能工厂等的广泛应用为人民群众提供高效的服务,然而,其高度的开放性也使得系统面临严峻的网络攻击威胁。特别地,数据注入攻击能够简单地实施和引起物理子系统性能严重降级或组件破坏。数据注入攻击是指攻击者
台风的准确预报可以减少由于台风破坏和人员疏散造成的损失,对于沿海城市的防灾减灾具有重要意义。海表风矢量是台风模拟和预报的不可或缺的参数,而卫星遥感得到的海表风观测的有效同化对于改善台风路径预报和强度预报具有重要作用。然而受限于目前资料同化的处理流程,大量风场观测在台风强对流天气条件下并没有被很好地利用起来。此外,不精确的背景场,缺乏流依赖信息的背景误差协方差,高风速风场观测误差的不准确描述都会影响
社区问答平台成为了一种流行的社交媒介,在这种社交网络中,用户可以提出问题来获取信息,其他用户也可以提供专业答案来分享知识。与搜索引擎相比,社区问答能以一种更直接的方式满足用户的信息需求。面对海量的以问答对形式组织而成的知识库,用户容易面临信息过载。一个研究任务是,给定一个问题,系统自动地从其答案集合中选择一部分符合该问题的答案,以此来提高平台的智能化水平,节省用户的时间成本。另一个研究任务是,根据
计算机视觉是一门让计算机拥有理解周围复杂环境能力的学科,具有重要的理论研究意义和应用价值。但是目前计算机视觉系统大多采用二维信息处理方式,如智能交通系统,视频监控系统中仅仅采用单摄像头进行智能处理,缺乏对环境深度的感知,这在一定程度上给系统的可靠性和鲁棒性带来了隐患。随着越来越多计算机视觉应用技术逐渐走进人们的生活,提升着人们的生活质量,改善着人们的生活方式,对计算机视觉系统可靠性与鲁棒性的要求也
感知是以实践的方式理解世界的第一步,为分析物理现象、探索事件成因提供事实基础。在各产业、各城市推进信息化建设的过程中,高效的信息获取始终是相关服务及应用中的一个至关重要的环节,有效的数据感知是沟通现实与蕴含诸多规律的大数据之间的桥梁、纽带。与此同时,物联网的出现和发展不断加深对透彻以及大规模感知的需求,而传统无线传感器网络的高安装维护成本、能源消耗问题和感知覆盖能力的不足却与之相掣肘。另一方面,随
学位
混合存储技术可以满足大数据存储系统对高存取性能和大存储容量的需求,同时大幅降低存储系统的总体拥有成本。新型瓦记录磁盘采用区域化内部数据管理方式缓解叠瓦式磁记录技术固有的写放大问题,但在非顺序写请求干扰下仍会出现严重的写性能抖动。新型闪存技术的发展导致闪存芯片可擦除次数大幅下降和并行资源难以充分利用,闪存固态盘出现可靠性下降和单盘性能增长受限等问题。叠瓦式磁记录技术和闪存技术的发展为大数据存储提供了
高效的数据存储和实时分析处理是大数据时代的迫切需求,基于硬盘的传统存储系统由于巨大的访问延迟无法提供及时的响应,内存计算技术将工作数据存储在大容量内存中进行数据处理,减少甚至避免I/O请求,极大提高了大数据处理能力。但是由于“存储墙”和“功耗墙”问题,基于DRAM的内存系统依然难以满足大数据应用日益增长的大容量高性能低能耗存储需求。此外DRAM是易失的,数据的持久存储还需要依赖外存,无法完全避免高
学位
密文访问控制即由用户自行加密数据,通过对解密密钥分发范围的控制,来控制哪些用户有权访问数据。在密文访问控制系统中,用户可以不再依赖云服务提供商(Cloud Service Provider,CSP)来保护数据内容的安全,也能防止CSP非法的获取数据内容。目前的研究中,密文策略属性基加密(Ciphertext-Policy At-tribute Based Encryption,CP-ABE)被普遍
学位