主成分分析方法求解主成分方法的改进

来源 :学术问题研究 | 被引量 : 0次 | 上传用户:ryu_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:对主成分的求解是主成分分析的主要工作,目前通用的方法有两大类:一是用原始数据的协方差阵求解;二是用相关系数矩阵求解,即对原始数据进行标准化,然后利用标准化后的数据的协方差求解。这两种方法解出的主成分系数往往不仅相差很大,而且在很多场合两种方法求解的主成分均存在一些问题。通过分析可以发现,对原始数据“最优”的处理方法是部分均等化,即只对均值均等化,以消除量纲差异,同时又不对方差均等化,以避免信息的丢失。通过案例比较三种方法求解的主成分的聚类效果可以发现,将原始数据的均值中心化,而标准差不做均等化处理时得到的聚类效果是最好的。
  关键词:主成分分析;主成分求解;标准化
  中图分类号:F222.1文献标识码:A 文章编号:0000-0129/K(2016)01-0095-06
  一、引言
  主成分分析方法是多元统计方法中比较重要的一种方法,当所研究的问题指标比较多时,可以通过提取原始指标中的“重要信息”,以期用较少的指标体现较多指标所蕴含的信息量的方法。从而降低问题的复杂程度,抓住问题的主要矛盾。
  主成分分析方法的核心就是求解主成分,常用的主成分提取方法有两种:第I种方法是不对原始数据做任何处理,直接计算原始数据的协方差矩阵,然后计算协方差矩阵的所有特征值和标准化特征向量,将求得的特征值从大到小排序,并计算每个特征值在所有特征值之和中的比重,提取累积比重大于85%的所有成分即为主成分,或者所有特征值大于1的成分为主成分,主成分系数即为对应特征根的标准化特征向量。第II种方法是先对原始数据进行Z-score标准化,然后再计算标准化后数据的协方差矩阵,接下来的处理和第I种方法一样,也是对特征值大于1或者累计方差贡献大于85%的主成分进行提取。然而这两种方法在实际应用中会存在各种问题,所以需要对原始数据先进行处理后才能用协方差或者相关系数矩阵提取主成分,而相关系数矩阵实际上是对原始数据进行Z-score变换,然后计算协方差阵 ,而Z-score变换会导致数据差异的人为消除,所以实际应用中需寻找更好的变换方法。
  叶双峰(2001) [1]提出了原始数据的均值化,即原始数据除以平均数。这种方法可以比较好的消除量纲影响,同时又保证方差的差异不会被消除,相对于Z-score方法有极大的改进,但是这种处理方法实际上是用除法消除量纲,将数据变换成均值为1的数据,除法消除量纲的方法容易受到均值正负符号的影响,需要先判断均值正负才能对结果做符合实际意义的解释,相对没有使用减法消除量纲的方式效果好且具有普适性。杨廷方、张航等[2]则采用样本指标绝对值之和对样本指标值进行标准化处理,既消除各指标数值在数量级上的差异,又保持了各个样本间的信息差异特征。这种处理方式可以避免数据符号的影响,但是当数据存在极端值时,很难如实反映不同变量的真实关系,其实是放大了极端值对数据波动的影响,会造成存在极端值时提取的主成分较大。除此之外还有对原始数据进行对数变换,或者对原始数据进行平方根变换等 [3][4]。这类方法只适用于数据变化幅度较大时,当数据变化幅度较小时,对数变换和平方根变换容易引起“信息压缩”,所以对变化较小的数据是不适用的。综上所述,目前还缺乏一种普适性,同时又具有良好特性的数据处理方法,而这种“普适性”变换遵循的原则有两个要求,即均值中心化和方差差异的保留,基于这一原则而提出新的变换方法。
  二、改进思路
  第I种方法由于没有对数据做任何处理,没有消除量纲,容易出现信息的提取错误,第II种方法采用Z-socre标准化处理数据,即将均值和标准差都进行均等化,这种过度的均等化,容易导致信息丢失的问题。当量纲一致时比较适用第I种方法,当量纲差异过大时比较适用第II种方法,但有缺陷。而量纲或数值范围差异是否已经足够大而必须进行Z-score标准化,往往很难得到客观、一致的判断。所以必须找到一种合适的主成分提取方法,适用于任何类型的数据。
  第Ⅱ种方法对原始数据进行标准化处理后,倾向于各个指标的作用在主成分的构成中相等,对于取值范围相差不大或者度量相同的指标进行标准化处理后,其主成分分析结果仍与由协方差阵出发求得的结果有较大区别,其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等,均为1,而实际上方差也是对数据信息的重要概括,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。
  上述两种方法在实际计算时很难得到一致的结果,当变量X的单位相差较大,使用第I种方法会使(1)式中变量数值较大的列和任意其他列的协方差值过于偏大,从而求得的特征值之间的差异也会非常大,导致提取的主成分过少(更易于实现85%的方差累积贡献)。使用第II种方法则刚好相反,由于在对X标准化时,尽管通过中心化消除了量纲的差异带来的主成分的过分集中,但是另一方面由于对标准差也做了归一化处理(归一化为1),此时X中各变量之间原本存在的波动差异也被消除了,使得原本载荷较大的因子被强制均等而减小了,而载荷较小的因子也被强制均等而增加了,此时导致的结果是提取的主成分相比较客观实际增加了(因为信息在各变量间的聚集效应,即波动差异,被人为的抹杀掉了)。所以无论是第I种方法还是第Ⅱ种方法,在提取主成分时都会出现和事实相违背的情况,主要体现为第I种方法容易提取过少的主成分,同时提取的主成分没有实际意义(受量纲影响)。第Ⅱ种方法会提取过多的主成分,不能准确反映原始数据的足够多的信息。而对同一个问题,两种方法孰优孰劣从主观又难以判断。
  上述两种方法的根本区别是:一是数据均值是否有较大差异,二是数据方差是否有较大差异。这两点决定了是否对原始数据进行标准化,如果原始数据的均值差异过大,而且如果这种差异是由于单位或者量纲不同导致的,则很可能使各变量在主成分中的权重扭曲。   所以主成分分析对数据标准化处理的最重要的目标是,减少量纲差异,同时又尽量不改变变量方差所包含的信息,不将方差归一化,同时使均值差异尽量小。因为标准化的目的是为了消除均值差异,但是又要尽量避免对方差差异的消除。所以,对Z-score标准化方法做一些变通。在这里使用“变异系数”的概念,即改进后的方法是将原始数据转化为均值0,标准差为“变异系数”的处理方法。如此便可避免前述问题的出现。
  下面举例检验三种方法提取主成分的聚类效果。
  四、改进效果比较分析
  检验用到的例子选择SPSS自带的数据,Employee data.sav。为MidPestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下十个变量:id(观测号),gender(性别),bdate(出生日期),educ(受教育程度(年数)),jobcat(工作种类),salary(目前年薪),salbegin(开始受雇时的年薪),jobtime(受雇时间(月)),prevexp(受雇以前的工作时间(月)),minority(是否少数族裔)。然后用主成分分析方法处理该数据,以期用少数变量来描述该银行的雇佣情况。
  首先,分别用第II种和第III种方法对原始数据进行处理,处理后的数据描述统计分析见表2。
  通过三种不同处理方法所得数据,用SPSS软件分别做主成分分析,结果见表3,并提取方差的累积贡献大于85%的主成分作为初始变量的替代,从表3可以发现,未对数据做处理时(第I种方法)得到的主成分只有一个,并且特征根异常大,这正是由于量纲差异过大导致的。所提取的主成分并不能真实的反映原始变量的相关信息。而第II种方法则提取了三个主成分,第III种方法提取了两个主成分。表4为三种方法因子载荷表汇总。
  由于第I种方法问题比较严重,提取的主成分对原始变量的代表性由于量纲的干扰,几乎失去任何意义。所以接下来只对第II种和第III种方法提取的主成分进行聚类分析比较,以观察两种方法提取的主成分对观测的类属性区分度差异,从而判断两种分类方法综合评价的效率及稳定程度。[6]用SPSS软件分别对第II种方法和第III种方法求主成分得分。为了使结果更加明显,从所有观测中抽取10%相同的观测来做聚类分析。
  第II种方法和第III种方法提取主成分然后做聚类分析的树图分别见图1和图2。从以上两张图可以明显的看出:第II种方法和第III种经过改进的方法相比较,在分类不细致时没有较大差异,随着分组越来越细致,第III种方法的分类优势越来越明显,相对第II种方法能够得到组内差异相对较小,组间差异相对较大的分类。并且第III种方法在分类细致时,类的集中性也较好,而第II种方法则在较细致分类时,容易出现链接聚合的趋势。比如包含第7、12、2、4观测所在的类,以及第13、14、8、18、1观测所在的类均出现链接趋势,而链接趋势一般出现在聚类方法对类属性区分不明显或者数据类属性区分不明显时。而第III种方法则在细微的层面仍能较好的分类。通过以上结果可以看出,改进后的主成分提取方法效果改善比较明显,主要原因在对不同变量均值均等化同时,对其他原有属性的保留(方差结构的保留),所以从本次例子的检验来看,改进是成功的。
  图1 第II种方法主成分聚类树图
  图2 第III种方法主成分聚类树图
  五、结论
  数据分析时,采用不同的方法会得到不同的结果,由于方法对数据结构的较高依赖性,对方法优劣程度的严格单独检验几乎是不可能的。在提取主成分时由于两种处理的极端性,使提取的主成分与原始数据大相径庭。既不可以对数据完全的均等化,也不可以完全不处理,至于如何处理才是更合适的,则必须遵循前述的普适性和对数据原本状态的保持,通过例子对三种方法作比较发现,只对原始数据中心化处理,而保留其波动性的数据结构,对于主成分提取是有益的,并且提取的主成分进行聚类分析的效果也明显优于其他两种方法。当然,由于现实问题的复杂性,遇到的数据变量结构类型也可能非常多,而针对主成分分析的数据处理方法则更是举不胜举,很难通过比较所有方法来找到具有完全普适性的“最优”方法,所以在实际操作中,需要在坚持具体问题具体分析的原则下,从客观数据出发,尽可能多的保留数据有用信息,而去掉干扰信息,从而找到恰当的变换方法。上述例子不足以代表所有主成分分析问题,但是对于主成分提取方法改进提出了比较明确的方向,即均值与方差的差异化处理,当然涉及到数据比较复杂、或者所研究问题的结果要求比较精细时,可能需要进一步探索更合适的方法。[7]
  参考文献:
  [1] 叶双峰.关于主成分分析做综合评价的改进[J].数理统计与管理,2001 (2).
  [2] 杨廷方,张航,黄立滨,等.基于改进型主成分分析的电力变压器潜伏性故障诊断[J]. 电力自动化设备,2015(6).
  [3] 曲双红,李华,李刚.基于主成分分析的几种常用改进方法[J].统计与决策,2011(5).
  [4] 胡永宏.对统计综合评价中几个问题的认识与探讨[J].统计研究, 2012(1).
  [5] 何晓群.多元统计分析:第四版[M].北京:中国人民大学出版社,2015:113—124.
  [6]侯文.应用主成分分析进行综合评价的一种改进方法[J].辽宁师范大学学报(自然科学版),2004(4).
  [7] 孟银凤,梁吉业,原曦曦.函数性数据分析中的主成分分析[J].山西大学学报(自然科学版),2011(1).
其他文献
目前,人工智能已经走进了普通百姓的日常生活,在无数领域都在进行推广与应用,并且取得了不俗的成绩,人工智能时代俨然到来。之前,制约人工智能发展的就是通信技术;4G网络虽然
团支部是共青团的基层组织,是共青团的组织基础,是团组织联系广大青年的纽带。切实加强和改进团支部的工作,充分发挥团支部的战斗堡垒作用,要有所为有所不为。 League branc
为了进一步提高锂离子动力电池荷电状态(SOC)的估计精度问题,在分析了电池电压、温度、电流和放电电量对电池SOC值的影响后,提出了一种新颖的混沌萤火虫算法(chaos firefly a
阐述错那方向自然地理环境情况,例举了陆军航空兵在高寒地区常见的几种作战行动,并以此为基点,论述错那方向自然地理环境对陆军航空兵作战行动的影响,给出了减少作战影响的几
在地形图中,常用等高线来反映地貌的起伏。介绍了等高线相关定义、性质和形成过程,以南方CASS9.0软件为例对等高线的内业绘制方法做了详细介绍,主要包括高程点预处理、绘制地性线
在西医各种疾病当中,经常遇到各种不明原因的疾病,比如不明原因的发热、高血压、肝硬化、胸闷、气短、心慌、后背痛、经常性头晕及头痛、胃肠道疾病等,经过临床检查一直查不出原
目的观察声带息肉患者术后应用布地奈德混悬液雾化吸入治疗的效果。方法将显微支撑喉镜下声带息肉切除术后患者92例随机分成两组,其中实验组应用布地奈德混悬液雾化吸入;对照
农用机井是农田灌溉取用地下水的主要设备,如何使农用机井在运行过程中能耗低、寿命长、效益高,就必须做到井、泵、电、附属工程合理配套.
无线宽带自组织网络,具有传输可靠性、抗干扰性的优势,多点位定向传输模式,令其在相关领域中具有较大的应用价值。基于此,文章对无线宽带自组织网络技术特性进行了解析,并对