基于非负矩阵分解算法的若干问题研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:ydy448681577
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征提取是数据分析中的核心步骤之一.如何从海量的数据中提取其有用信息已成为目前应用数学与模式识别领域的一个热点问题.常用的特征提取方法包括主成分分析(PCA)、线性判别分析(LDA)、局部保持投影算(LPP)和非负矩阵分解(NMF).其中,非负矩阵分解(NMF)是主要针对非负数据的一种特征提取方法,其在人脸识别、聚类及高光谱分解等方面有着广泛的应用.然而,传统NMF还存在一些问题,比如没有充分利用训练样本的类标信息、对光照等噪声敏感、仅是一种线性方法及不能处理含负数的数据等.本学位论文主要针对NMF算法上述问题展开研究,并将改进的NMF算法应用于人脸识别和聚类任务中,取得了如下三方面的研究成果:1.由于传统的NMF是一种非监督的学习算法,并未利用到数据的类标信息,故难以在人脸识别中取得令人满意的效果.针对此问题,我们提出了一种增强的非负矩阵分解算法(ENMF).该算法引入了数据的类标信息,使得同一类的样本在特征提取之后嵌入同一个子空间,不同类的样本在特征提取之后嵌入不同的子空间,且这些不同的子空间是相互正交的.这样做的好处是使得提取的同类数据样本之间的特征具有很高的相似性,而不同类样本之间的特征具有很好的区分性.我们通过辅助函数技巧和卡尔丹公式得到了算法的更新迭代公式并证明了算法的收敛性.通过这种算法提取的特征比传统NMF提取的特征具有更强的区分性.我们将该算法应用于人脸识别中,并与四种流行的NMF算法相比较.实验表明,我们算法能够达到一个令人满意的效果.2.由于传统NMF算法的目标损失函数是用F范数或KL散度来度量的,故对样本数据中的噪声十分敏感.针对此问题,我们提出了一种基于余弦度量的非负矩阵分解算法(CSNMF).由于余弦度量具有伸缩不变的特性,故能抵抗人脸识别中所遇到的光照问题,提高算法的鲁棒性.我们通过辅助函数技巧得到了算法的迭代公式并证明了算法的收敛性.我们选取三个含有光照干扰的人脸数据库:FERET数据库、CMU PIE数据库和Yale B数据库进行实验验证.同时,我们在FERET和CMU PIE数据库上做了添加噪声的实验.这些实验结果均表明我们的算法对噪声具有很强的鲁棒性.3.半非负矩阵分解(Semi-NMF)算法能用于含负数据的聚类问题,但其主要存在两点不足:(1)算法的收敛速度较慢,难以应用于大规模的数据.(2)Semi-NMF是一种线性算法,其在处理非线性分布的数据时性能会降低.为解决问题(1),我们提出了一种快速半非负矩阵分解(FSNMF)算法.它通过定义一种拟辅助函数(quasi-auxiliary function)来证明算法的收敛性.我们提出的这种拟辅助函数方法可以构造目标函数新的辅助函数,据此可开发出许多新的NMF收敛算法.实验结果表明,与传统的Semi-NMF相比较,我们的FSNMF具有更快的收敛速度和更好的聚类效果.另外,为解决Semi-NMF算法的非线性问题,我们将该算法拓展到核空间中,得到了一种核半非负矩阵分解(KSNMF)方法.类似的,我们通过拟辅助函数证明了算法的收敛性.实验表明,KSNMF的聚类性能优于Semi-NMF和FSNMF等算法.
其他文献
多目标优化问题广泛存在于科学研究与实际工程应用中。由于多个优化目标之间相互冲突,单个解不可能同时使所有的目标都是最优的。因此,多目标优化问题的最优解是由多个帕累托最优解组成的集合。进化算法是一种基于种群的元启发式算法,能同时优化一组解。因此,在求解多目标优化问题时,进化算法是一种非常适合的优化算法。然而,随着多目标优化问题复杂性的变化,现有的多目标进化算法越来越难以平衡种群的收敛性与多样性。因此,
目前,物联网、边缘智能和边缘计算等技术在网络边缘上生成了大量数据,而这些日益增多的数据需要在越来越复杂的深度学习算法上进行训练,以检测、分类和预测未来事件。这个趋势在未来还会继续扩大,为了加快深度学习算法的训练速度,分布式计算正变得越来越重要。然而分布式训练在主节点与计算节点间进行着频繁的梯度交换,这使得训练承受着巨大的通信开销,并且限制了分布式深度学习的训练效率。为了降低分布式深度学习的通信开销
多任务学习作为机器学习的一个重要分支,在处理多个小样本相关联任务和挖掘相关任务之间的内在联系与共享信息等方面发挥了重大的作用。其中多任务支持向量机(Multi-task Support Vector Machine,MTSVM)是多任务学习中的一个重要的发展方向。然而现有的多任务支持向量机大多并不具备特征选择的功能,在面对高维度任务或者高噪声任务并不能达到很好的效果。此外,多任务支持向量机通常假设
近年来,预测股价对国家,社会具有深远意义而引起了研究者们广泛的关注。使用深度学习算法预测股票是该领域重要的一个分支。由于股票数据集较小,不平稳,存在不稳定性,使预测股价难度增加。并且传统的算法难以有效提取股票序列的非线性特征。随着深度学习算法的发展,循环神经网络和卷积神经网络因有较好的非线性特征提取能力而逐渐在股价预测应用中崭露头角。尽管使用传统的神经网络算法预测股价能取得一定准确度,优化算法的预
近年来,随着新兴社交媒体的火热发展,越来越多的人们使用在线社交平台来获取感兴趣的信息,而随着用户网络规模的越来越大,在线社交平台上信息鱼龙混杂,真假难辨,这就导致在线信息系统的治理出现诸多问题。例如不实新闻大肆传播导致社会公信度降低,哄抬物价非法赢利,传播不当言论导致的舆情监控等问题,本文从以下两个小方面切入,旨在为在线信息系统的治理做出贡献。一是从信息的传播过程。在追踪一条信息的传播时,我们通常
准确地预测股票价格对降低投资者的风险有着十分重要的意义。投资者可以通过对股价的合理预测来确定自身的投资组合,从而规避风险,获取更大的收益。虽然深度学习已经在股票价格预测上拥有很多的研究成果与实际应用,但是,仍然存在着泛化能力较弱,训练容易导致过拟合等基本问题,模型在预测阶段的表现较差。通常,数据增强以及合理调整模型架构能够有效地避免这类情况发生。本文主要针对长短期记忆网络(LSTM)在股票价格预测
股票市场作为社会经济的重要组成部分,为我国的经济发展发挥着重要的作用。投资者可以通过准确的价格走势预测,降低投资决策的风险。然而由于股票数据的非线性和非平稳特性,股票价格走势的准确预测往往非常困难。当前基于神经网络的深度学习算法(LSTM),在股票价格预测中初步显示重要的算法优势。然而在训练过程中,仅仅采用梯度下降算法进行网络优化,预测的准确性有待提高。进化算法作为一种鲁棒性强全局寻优算法,可以用
物流行业发展面临着激烈的市场竞争压力和消费者服务要求不断升级的挑战。物流企业要在如此激烈的竞争环境中生存,提高企业的核心竞争力,物流车辆路径规划是物流管理中的关键环节之一,优化物流车辆路径规划对于减少运营成本和提高服务质量至关重要。由于车辆路径规划问题属于组合优化的NP难问题,该问题的求解存在诸多的困难,如算法的收敛速度慢,求解目标过多,问题约束苛刻等。为了平衡问题求解的时空复杂度,本文基于演化计
动态多目标优化问题无论在科学研究还是在实际应用中都广泛存在。此类问题不仅具有多目标优化问题的基本特征,主要表现在多个目标互相冲突无法同时达到最优,而且这些目标还会随着时间的变化而发生改变,如目标函数、目标函数的数目和限制条件都可能会随时间变化。这些动态变化可能引起问题的帕累托最优前沿(Pareto optimal front,PF)和帕累托最优解集(Pareto optimal set,PS)随着
卷积神经网络(Convolutional Neural Network,CNN)已经被广泛地应用在许多人工智能平台中。但是,由于卷积神经网络的推理过程涉及大量的数据迁移以及复杂的数据计算,它们仍然很少被部署在移动或边缘平台上。新兴的神经架构(Neuromorphic Architecture)旨在结合存内计算技术(Processing In Memory,PIM)来减少数据迁移,它采用三维堆叠的形