样本均值非零假定下基于Oja算法的在线PCA研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:zhengyunemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主成分分析(Principal Component Analysis,简称PCA)是一种常见的数据降维工具,在工业、生物、金融以及社会发展等各个领域都有广泛的应用.其旨在将多个变量转化为保留大部分信息的少数几个不相关的综合变量,从而以最小的信息损失达到降维的目的.这些综合变量被称为主成分,它们是原始变量的线性组合.随着大数据时代的到来,规模庞大的动态数据使得基于经验协方差矩阵的传统PCA失效.在这一信息化大背景下,考虑PCA的在线形式具有重要的理论意义与应用价值.该在线形式指的是(i)数据作为序列逐个被接收,且只有一小部分数据能够被存储;(ii)当有新数据流入时,必须对当前输出结果进行实时更新修正.解决这一在线问题的方法种类多样,其中,最为简单和经典的是Oja于1982年提出的随机梯度算法.近年来,国内外学者围绕着对Oja算法进行改进,或者对其进行理论分析这两方面做了大量工作.在Oja算法中,样本被假定为取自某个均值为零、协方差未知的分布.然而,在实际应用中,样本均值为零这一假定过于严格.并且,在样本均值未知情形下的相关研究非常匮乏.本硕士学位论文基于Oja算法,在样本取自某个均值非零的分布这一自然假定下,从以下三个方面对在线主成分分析问题进行了研究:(1)在算法方面,通过在原Oja算法中加入递归中心化处理,本文采用了适用于样本均值未知情形的修改版Oja算法.考虑可利用的样本先验知识有限,本文选取了最基本的自然平均值用于每步迭代所需的中心化处理.(2)在理论方面,基于学者Jain对原Oja算法的分析框架,先将主迭代表为作用于初始点的一个算子.由于中心化项的存在,本文算法的每步迭代之间不再相互独立,这使得对其进行收敛性分析变得十分困难.对此,本文提出了一种“拆分”策略,根据是否包含中心化项,将主迭代步分为两部分独立分析,成功克服了迭代步间的相关性障碍.进一步地,借助于多维中心极限定理和集中不等式,本文用严格并且完整的证明推导出了非零样本均值版Oja算法的收敛速度.另外,对于Oja算法的表现依赖于对步长调参这一问题,本文提供了一种步长选取方式可作为理论参考依据.(3)在实验方面,本文通过Matlab分别对仿真数据和真实数据进行了数值实验,实验结果既表明了算法的有效性,又证实了理论部分的正确性.另外,仿真实验中还加入了另一种样本中心作为对比.其结果说明了本文所选择的中心化方式的合理性.
其他文献
随着高维数据的不断产生,对其进行有效的分析和处理成为解决许多问题至关重要的一点。由此,研究高维数据的聚类分析方法也是十分必要的。在这些方法中,子空间聚类方法便是一
我国的地方党政领导人主要通过政府治理效率来影响经济增长,这与我国党政领导人的合作机制密切关联。本文基于2001-2016年全国31个省(自治区、直辖市),278个地级城市的经济增长相关数据与党政领导人合作任期数据,运用固定效应模型对党政领导人合作任期对经济增长的影响进行了实证研究,并且分区域进行了横向比较分析,为完善地方官员任期制度、积极发挥党政领导人能力提供了参考意义。文章在实证分析的基础上,得
非法经营罪作为我国经济犯罪领域的重要罪名,是在投机倒把罪被分解之后所确立的。近年来,随着非法经营罪司法解释数量的不断增加,该罪的规制范围不断扩大,出现不合理的扩张趋
涡旋光束因其独特的螺旋相位和自身携带的轨道角动量(Orbital Angular Momentum,OAM)在光通信中受到广泛的关注。OAM模式复用作为一种新的复用技术有望提高光通信容量和频谱效率。自由空间短距离涡旋光通信已有很多研究,而长距离涡旋光通信必然涉及涡旋光在光纤中的调控。近几年,微结构光纤(Microstructure Optical Fibers,MOF)由于设计性强和功能多样的特点
异构蜂窝网络中由于多基站的同频部署,将会存在同层干扰和跨层干扰,严重影响了通信网络的性能,因此有效的干扰管理手段成为了研究热点。传统干扰管理方案将干扰视为不利因素,通过资源的协调、规划达到抑制或消除干扰的目的,在减小干扰的同时也降低了资源的利用率。多点协作技术(Coordinated Multi-Point Transmission,CoMP)是一种有效的干扰管理机制,能将干扰转换为用户期望的信号
没有人可以真正脱离他人单独生存。当他和他人交往时,他的语言、姿势、表情等会不自觉地对某种东西做出评价。其中语言是评价的主要方式之一,语言承载了复杂的评价含义。外交
空间调制(Spatial Modulation,SM)属于多输入多输出(Multiple Input Multiple Output,MIMO)的技术范畴,它是在时间维度传输数据的同时,利用不同收发天线之间存在的信道差异,将部分数据隐含在发射天线的序号(即空间维度)中进行传输。与传统MIMO系统相比,SM系统仅需要较少的射频链路,可实现在保持系统性能不变的前提下大大降低硬件成本的目的,同时可有效克
近几年,基于位置的服务广泛应用于人们生活中的很多方面。其中室内定位是基于位置服务的一个重要支持,因此室内定位算法的研究引起了许多研究者的兴趣。然而,由于室内环境的复杂多变性,室内定位算法的定位精度面临着很严重的挑战。本论文的主要研究目标是提高定位算法的定位精度以及稳定性。本论文首先提出了一种基于多重接入点选择的WiFi室内定位算法。该算法首先通过多重WiFi接入点的选择可以有效的选择出性能稳定且分
随着数据流量的井喷式增长,为提供更高质量的通信网络服务,5G致力于改变通信架构,提供新型通信方式,它能提供更高的峰值速率,低至毫秒级的时延,极大的连接数密度。然而,此种通信架构将引发严重的干扰问题。在多小区多用户的无线通信系统中,干扰严重阻碍通信系统性能的提升,为消除这些干扰,各种各样的干扰管理技术成为该领域的研究热点,其中,干扰对齐(Interference Alignment,IA)作为一种比
二郎拳是流传于我国北方一带的拳种。其文化体系庞大、博大精深,民间各地的习武者对它的称谓有所不同,比如对把拳、武松拳、二郎神拳、乞丐拳、花子拳、少林二郎门等,但在聊