面向大规模数据集的流形正则化非负矩阵分解及硬件加速

来源 :国防科学技术大学 | 被引量 : 1次 | 上传用户:quake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代背景下,人们在生物、气象、交通、经济、医学等众多领域中均面临着分析处理各种纷繁复杂的数据,它们呈现出规模大、维数高、复杂度高、实时性强等特点,造成“维数灾难”、“数据爆炸但知识匮乏”等现象的出现,给数据分析带来了诸多现实的挑战。数据降维作为一种有效的数据分析技术,通过精简数据维数、挖掘和揭露隐含在高维数据中的有价值信息,为分析高维数据的本质规律和内在结构提供了一种重要的技术途径。  近年来,以非负矩阵分解和流形学习为代表的传统数据降维方法受到了广泛的关注,得到了广泛的应用。然而,它们在处理大规模复杂的高维数据时面临计算复杂度过高、存储开销过大以及学习精度不高等诸多问题。本文分别面向大规模批量和增量数据,从数学的理论模型、软件的并行计算以及硬件的加速实现等多个层面研究非负矩阵分解与流形学习相结合的数据降维方法,并通过采取多种优化策略分别提出流形正则化非负矩阵分解的批处理并行算法、在线算法及其硬件加速技术。  具体而言,本文的主要工作和创新点包括:  1. 提出了并行流形正则化非负矩阵分解方法(第二章)  面向大规模批量数据集,实现了流形正则化非负矩阵分解并行算法,建立了并行流形正则化非负矩阵分解方法(PNMF-M)的理论模型,提出了一种负载均衡的数据划分策略,定义了并行求解模型的目标函数,并详细推导了因子矩阵的更新规则。针对流形构造中两种不同的邻居模式定义,分别提出了两种流形构造方法。基于分布式集群系统设计了消息传递式的多进程并行算法。实验结果证明了PNMF-M在引入较少额外计算开销和通信开销的情况下极大地提高了算法的学习精度和可扩展性。  2. 提出了在线流形正则化非负矩阵分解方法(第三章)  将流形学习方法引入到增量非负矩阵分解中,面向大规模增量数据集提出了在线流形正则化非负矩阵分解模型(INMF-M),通过引入流形正则化项采用递推方式重新构造模型的目标函数,详细给出了因子矩阵的更新规则,并对其进行了可扩展性分析。为了进一步改善方法的可扩展性,提出了一种缓冲池的优化策略,设计了带缓冲池的在线流形正则化非负矩阵分解算法(INMF-MB),并对其进行了算法复杂度分析。实验结果表明,算法在学习精度以及可扩展性方面均获得了较大的提升。  3. 提出了特征选择流形正则化非负矩阵分解方法(第四章)  针对现实应用中很多高维数据常常具有噪声、无关或者冗余的特征,本文将特征选择技术引入到在线流形正则化非负矩阵分解中,提出了特征选择在线流形正则化非负矩阵分解模型(FS-INMF-M),通过增加特征选择矩阵重新定义了模型的目标函数,并将特征选择矩阵作为因子矩阵之一,重新推导了因子矩阵的更新规则。针对FS-INMF-M的可扩展性问题,提出了一种随机投影树的优化策略,设计了带随机投影树的特征选择在线流形正则化非负矩阵分解算法(FS-INMF-MT),并分析了算法的复杂度,实验结果验证了算法的可行性和有效性。  4. 提出了流形正则化非负矩阵分解硬件加速技术(第五章)  现实世界中的很多应用对实时性要求很高,仅靠传统计算平台来实现数据降维难以满足实际需求。本文面向在线流形正则化非负矩阵分解方法研究了其硬件加速的可行性,重点分析了带缓冲池的在线流形正则化非负矩阵分解算法(INMF-MB)核心代码中的数据及操作特点,给出了具体的优化措施以及模块化设计,提出了“特征间并行”和“特征内并行”两种不同的硬件加速方法,分别阐述了数据存储结构以及功能模块的详细设计方案,并基于FPGA实现了该设计方案,实验结果证实了我们的设计方案能够有效地加速INMF-MB算法的执行,获得了较为理想的加速比。
其他文献
学位
学位
目的:探讨原发性高血压社区防治中健康管理的应用作用.方法:收集本院2018年8月至2019年8月收治的原发性高血压患者70例,将患者统一编号后,取随机数字分为研究组和对照组,每组
学位
毒死蜱(C9H11C13NO3PS)是一种广谱含氯有机磷杀虫剂、杀线虫剂、杀螨剂,用于各种农作物(棉花、水稻等)、草坪和观赏植物等虫害防治。根际土壤微生物群落参与土壤矿质营养转化
学位
本文旨在介绍吴耀南教授针对非酒精性脂肪性肝病脏腑功能失调、痰浊瘀血留着于肝的主要病机,提出“痰瘀同源、互化、同病”的“痰瘀相关论”,采取“痰瘀同治”的方法治疗非酒
该论文工作主要围绕以下三方面进行:(1)掺杂光纤放大器与掺铒光纤双向放大器,(2)使用掺铒光纤放大器对光纤网进行扩容/并网,(3)光频分复用光纤通信系统实验.相应地将论文内容
研究目的:检测水通道蛋白1(Aquaporin1,AQP1)在成年及出生前、后雄性小鼠生殖系统内表达与分布;观察碳酸酐酶抑制剂乙酰唑胺对雄性小鼠生殖道AQP1表达、精子质量及雄性受精能力
学位
学位