鲁棒主成分分析方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:dandu10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多领域,诸如:模式识别和机器学习,数据的维数可能成千上万。主成分分析(Principal Component Analysis,PCA)是进行降维和特征提取的一个广泛使用的工具。通过PCA对高维数据进行降维,可以解决以下三方面的问题。第一,在高维数据情况下,经常会出现数据样本稀疏,距离计算困难等问题,这种现象被称为维度灾难,缓解维度灾难的一个重要途径就是通过主成分分析方法降维;第二,主成分分析可以在压缩数据的同时让数据信息损失最小化;第三,通过PCA方法降维后的数据可以更容易的分析和理解。然而,传统的PCA对于实际应用中常见的异常值是非常敏感的。因此,近些年,许多基于鲁棒性的PCA方法被提出以提高算法的鲁棒性。然而,大多数鲁棒PCA方法有几个缺点。首先,使用2L范数对包含异常值的数据集进行中心化通常是有偏的;第二,如果矩阵直接对样本进行投影会得到不正确的低维表达;第三,大多数研究较少关注矩阵范数,而矩阵范数可以更好的利用矩阵的结构信息;第四,许多鲁棒性方法都不能保持对学习算法很重要的良好特性,比如:旋转不变性等。以上问题给鲁棒主成分分析的性能提升带来极大挑战。本文针对PCA的鲁棒性,重新审视了鲁棒的PCA模型,并基于新的模型提出了两种新的鲁棒的主成分分析算法。本文主要研究工作如下:1.本文重新审视了鲁棒PCA方法,并且发现大多数鲁棒的PCA方法在计算样本均值和样本的低维表达时有偏。因此,本文重新阐述了鲁棒PCA方法的目标函数去提高算法的鲁棒性。在新的目标函数中将均值作为一个优化变量,这种数据均值的估计对噪声具有鲁棒性。同时,本文提出了一种在低维特征子空间中估计图像真实位置的方法。而传统的PCA,样本的低维表达是通过直接投影来计算的。本文还讨论了新提出的目标函数的适用范围,并且对其有效性进行了理论和实验分析。而且,为了处理未知样本,本文提出了一个新的框架,它可以应用到所有的新模型下的鲁棒PCA方法。另外,本文发现当样本被噪声遮挡时,先前的2D投影方法的重建图片的质量较低。本文对其原因进行了讨论,并提出了一个新的两阶段鲁棒2-DPCA方法去处理这个问题。2.为了解决结构性噪声,本文在新的目标下提出了一个基于核范数的鲁棒PCA(N-PCA)方法。众所周知,当存在异常值时,距离度量会严重影响算法的有效性。而且结构噪声使得误差图片矩阵是低秩的,低秩函数一般很难求解,通常使用核范数作为低秩函数的凸包来代替低秩函数。因此,核范数可以充分利用误差图片的结构信息。N-PCA是一种使用核范数度量重建误差的二维PCA方法,它可以充分利用图像的空间结构,针对图像上存在的异常特征计算出鲁棒的投影向量。此外,N-PCA也利用新的模型来评估样本均值和数据的低维表达以提高算法的鲁棒性。3.本文将F-2-DPCA扩展到一种广义的距离度量学习方法,被命名为L2,p-2-DPCA。在L2,p-2-DPCA中,空间维数的重建误差用F范数度量,而所有样本的求和用pL范数。为了解决L2,p-2-DPCA问题,本文提出了一种迭代算法,每次迭代都有一个闭式解。与大多数鲁棒PCA方法相比,L2,p-2-DPCA具有以下优点。首先,由于L2,p范数减弱了大的变量的影响,L2,p-2-DPCA对异常值具有鲁棒性;其次,L2,p-2-DPCA是在新的模型下提出的能量函数,因此可以自动估计样本均值;第三,L2,p-2-DPCA保留了2-DPCA的理想性质(旋转不变性)。此外,本文还证明了2-DPCA和F-2-DPCA是L2,p-2-DPCA的两个特例。
其他文献
近年来,随着世界各国对于海洋开发利用的日益重视,为了深入了解海洋,水下无线传感网络作为一种探索海洋的有效方法已经引起了人们的广泛关注。由于海洋复杂环境的限制,水下无线传感网络中设备的电池难于更换,因此如何节省水下无线传感网络能耗以延长网络的使用寿命对于水下无线传感网络的发展十分重要。此外,网络中信息在传输过程的安全性也是当前研究的一个重点。本文研究了水下无线传感网络中信号传输过程的节能及安全性问题
工业机器人虽然重复定位精度很高,但由于绝对定位精度很低限制了工业机器人的应用,因此提高绝对定位精度能扩展工业机器人的应用范围。目前的工业机器人参数标定方法提高绝对
随着品牌传播逐渐成为房地产行业吸引客户、树立正面形象的一大重要路径,金地集团东南区域正积极创新品牌传播模式,希望率先通过代表项目的打造来为“因诚而美”品牌价值理念
在当前社会转型的大背景下,随着互联网等科学技术的发展,新一代中学生的成长受到多方面的影响,在家庭环境、学校教育、同辈群体及其自身因素之间的相互作用下,中学生产生偏差行为的问题日益突出,因此如何预防和矫正中学生偏差行为,是需要社会多方共同关注的问题,也是值得探讨的重要社会问题。本研究通过对上海市8所中学初二学生的偏差行为进行问卷调查,基于一般压力理论,考察上海市中学生压力及偏差行为的现状,分析压力对
随着互联网的发展迎来大数据时代,使数据量呈现指数级增长,如何在众多数据集中选择满足用户兴趣的数据成为重点研究内容。skyline查询在多目标决策中成为该领域的热门研究点,
教学评价是根据教学目标对教学过程及结果进行价值判断并为教学决策服务的活动,是研究教师的教学工作和学生的学习效果的过程。教学评价包括评教和评学两个核心环节:评教是指
伺服控制技术在工业制造和日常的生活当中有着非常广泛的应用,如数控机床、工业自动化、机器人等领域。随着微型处理器和电力电子技术的快速发展,高性能单片机以及DSP等芯片的出现,促进了数字化控制伺服系统的快速发展。同时,矢量控制技术和直接转矩控制技术的提出与发展,使得交流电机的控制更加简单,为交流电机伺服控制技术的发展奠定了坚实的基础。伺服控制系统正向着高性能、高精度发展,因此研究先进伺服控制技术具有十
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天候、全天时、高分辨率、穿透能力强等工作优势及特点,越来越受到人们的关注,在军事和民用方面广泛应用。合成孔径雷达成像是将其探测到的场景目标回波转化成精确的目标图像,以便更加直观的观测场景的信号处理技术。SAR系统接收到的雷达回波数据是散焦的,其基本信息隐藏在相位里,所以需要成像算法处理获得聚焦图像。但是回波数据一般情况下
基于流程模拟数据,实时寻优操作参数,以实现石化生产过程操作优化是当今石化生产过程提高产品收益、节能降耗的重要方法。其中作为优化计算工具的遗传算法(GA)起到了重要作用
近年来,多自主体系统的协作式输出调节问题受到了控制领域的广泛关注。该问题可以刻画为:给定一组多自主体受控对象、外系统以及一个连通的网络通信拓扑,设计分布式控制器使得系统能够实现渐近跟踪一类参考输入的同时抑制一类干扰信号。本文考虑利用鲁棒控制和自适应控制两种方法实现线性不确定多自主体系统的协作式输出调节问题,具体概括为:1.利用鲁棒控制方法解决线性多自主体系统的协作式输出调节问题。对于单输入单输出系