论文部分内容阅读
在大数据时代背景下,人们在生物、气象、交通、经济、医学等众多领域中均面临着分析处理各种纷繁复杂的数据,它们呈现出规模大、维数高、复杂度高、实时性强等特点,造成“维数灾难”、“数据爆炸但知识匮乏”等现象的出现,给数据分析带来了诸多现实的挑战。数据降维作为一种有效的数据分析技术,通过精简数据维数、挖掘和揭露隐含在高维数据中的有价值信息,为分析高维数据的本质规律和内在结构提供了一种重要的技术途径。 近年来,以非负矩阵分解和流形学习为代表的传统数据降维方法受到了广泛的关注,得到了广泛的应用。然而,它们在处理大规模复杂的高维数据时面临计算复杂度过高、存储开销过大以及学习精度不高等诸多问题。本文分别面向大规模批量和增量数据,从数学的理论模型、软件的并行计算以及硬件的加速实现等多个层面研究非负矩阵分解与流形学习相结合的数据降维方法,并通过采取多种优化策略分别提出流形正则化非负矩阵分解的批处理并行算法、在线算法及其硬件加速技术。 具体而言,本文的主要工作和创新点包括: 1. 提出了并行流形正则化非负矩阵分解方法(第二章) 面向大规模批量数据集,实现了流形正则化非负矩阵分解并行算法,建立了并行流形正则化非负矩阵分解方法(PNMF-M)的理论模型,提出了一种负载均衡的数据划分策略,定义了并行求解模型的目标函数,并详细推导了因子矩阵的更新规则。针对流形构造中两种不同的邻居模式定义,分别提出了两种流形构造方法。基于分布式集群系统设计了消息传递式的多进程并行算法。实验结果证明了PNMF-M在引入较少额外计算开销和通信开销的情况下极大地提高了算法的学习精度和可扩展性。 2. 提出了在线流形正则化非负矩阵分解方法(第三章) 将流形学习方法引入到增量非负矩阵分解中,面向大规模增量数据集提出了在线流形正则化非负矩阵分解模型(INMF-M),通过引入流形正则化项采用递推方式重新构造模型的目标函数,详细给出了因子矩阵的更新规则,并对其进行了可扩展性分析。为了进一步改善方法的可扩展性,提出了一种缓冲池的优化策略,设计了带缓冲池的在线流形正则化非负矩阵分解算法(INMF-MB),并对其进行了算法复杂度分析。实验结果表明,算法在学习精度以及可扩展性方面均获得了较大的提升。 3. 提出了特征选择流形正则化非负矩阵分解方法(第四章) 针对现实应用中很多高维数据常常具有噪声、无关或者冗余的特征,本文将特征选择技术引入到在线流形正则化非负矩阵分解中,提出了特征选择在线流形正则化非负矩阵分解模型(FS-INMF-M),通过增加特征选择矩阵重新定义了模型的目标函数,并将特征选择矩阵作为因子矩阵之一,重新推导了因子矩阵的更新规则。针对FS-INMF-M的可扩展性问题,提出了一种随机投影树的优化策略,设计了带随机投影树的特征选择在线流形正则化非负矩阵分解算法(FS-INMF-MT),并分析了算法的复杂度,实验结果验证了算法的可行性和有效性。 4. 提出了流形正则化非负矩阵分解硬件加速技术(第五章) 现实世界中的很多应用对实时性要求很高,仅靠传统计算平台来实现数据降维难以满足实际需求。本文面向在线流形正则化非负矩阵分解方法研究了其硬件加速的可行性,重点分析了带缓冲池的在线流形正则化非负矩阵分解算法(INMF-MB)核心代码中的数据及操作特点,给出了具体的优化措施以及模块化设计,提出了“特征间并行”和“特征内并行”两种不同的硬件加速方法,分别阐述了数据存储结构以及功能模块的详细设计方案,并基于FPGA实现了该设计方案,实验结果证实了我们的设计方案能够有效地加速INMF-MB算法的执行,获得了较为理想的加速比。