论文部分内容阅读
主成分分析是一种最常用的多元统计方法,其思想是在相关分析的基础上用较少的新变量代替原来较多的旧变量,而使这些较少的新变量尽可能多的保留原来变量所反映的信息。通过对原始数据相关系数矩阵内部结构的研究,使新变量主成分成为原变量的线性组合,并选取在总信息量中比例较大的主成分来分析事物提取研究对象的特征因素。
为了便于算法的分析与改进,基于SVD分解我们给出主成分算法的矩阵描述。为此,首先将原始数据进行中心化和归一化,即让每一列的数据期望值为零,方差为1,得到标准的数据矩阵,其中
下面的定理给出主元分析方法的矩阵描述:
定理1:给定标准化的数据矩阵。设矩阵的SVD分解为=UT∑V。若选取p个主成分,则将V分块为,其中V1为p€譵的矩阵,则主成分矩阵与标准化的数据矩阵的关系为F=[F1F2…Fp]=V1T进而,样本的得分向量为∏=F€%o,其中∏=[∏1∏2…∏n]T,€%o=[€%o1€%o2…€%op]T。
证明:由于是标准的,即各列的均值为0,方差为1。因此,相关系数矩阵R=[rij]m€譵为rij=kikj
即R=TX。由于=UT∑V,故R=VT∑2V。通过比较容易看出,€%lk2=€%dk为R的特征值,V的行向量即为R的单位正交左特征向量,而V1恰为前p个特征值对应的左特征向量,因此F=V1T和∏=F€%o成立。证毕!
注1:定理1给出了主成分分析法的矩阵描述,通过SVD分解,得出主成分与原始指标间的线性关系,同时也给出了综合得分矩阵表示,使得整体算法非常直观。
本文提出一种预处理方法,可以保证最大奇异值不减,因此可以有效的保持主成分的结构。为此,给出下面的定理。
定理2:设A为一个具有如下分块的数据矩阵:其中,每个Aij均为具有适当维数的矩阵。则对最大奇异值范数,我们有
证明:设向量x按矩阵A分块如下:
则有
得证!
本文采用的这种基于矩阵奇异值分解的修正主成分分析法,按照最大奇异值原则进行多级指标合并则可以保证主成分分析中奇异值最大的主成分含量不减,因而不会因为多级指标的合并带来主成分结构的破坏。本文采用矩阵最大奇异值合并方法,该方法保证了合并对原有主成分的影响较少。该方法最大特点和优势在于客观性,即不是根据人的主观判断,而是由数据自身的特点决定。这种方法可以在尽可能保留原有数据所含信息的前提下实现对统计数据的简化,并达到更为简洁明了的揭示变量间关系的目的。本课题所选定的分析方法是基于矩阵奇异值分解的修正主成分分析法。该方法克服了主成分分析方法无法区分不同类别的低级指标的缺点,采用分块矩阵奇异值范数得到高级指标的数量值,然后采用标准的主成分分析方法,有效地解决了多级指标的主成分分析问题。
(作者单位:合肥工业大学经济学院)
为了便于算法的分析与改进,基于SVD分解我们给出主成分算法的矩阵描述。为此,首先将原始数据进行中心化和归一化,即让每一列的数据期望值为零,方差为1,得到标准的数据矩阵,其中
下面的定理给出主元分析方法的矩阵描述:
定理1:给定标准化的数据矩阵。设矩阵的SVD分解为=UT∑V。若选取p个主成分,则将V分块为,其中V1为p€譵的矩阵,则主成分矩阵与标准化的数据矩阵的关系为F=[F1F2…Fp]=V1T进而,样本的得分向量为∏=F€%o,其中∏=[∏1∏2…∏n]T,€%o=[€%o1€%o2…€%op]T。
证明:由于是标准的,即各列的均值为0,方差为1。因此,相关系数矩阵R=[rij]m€譵为rij=kikj
即R=TX。由于=UT∑V,故R=VT∑2V。通过比较容易看出,€%lk2=€%dk为R的特征值,V的行向量即为R的单位正交左特征向量,而V1恰为前p个特征值对应的左特征向量,因此F=V1T和∏=F€%o成立。证毕!
注1:定理1给出了主成分分析法的矩阵描述,通过SVD分解,得出主成分与原始指标间的线性关系,同时也给出了综合得分矩阵表示,使得整体算法非常直观。
本文提出一种预处理方法,可以保证最大奇异值不减,因此可以有效的保持主成分的结构。为此,给出下面的定理。
定理2:设A为一个具有如下分块的数据矩阵:其中,每个Aij均为具有适当维数的矩阵。则对最大奇异值范数,我们有
证明:设向量x按矩阵A分块如下:
则有
得证!
本文采用的这种基于矩阵奇异值分解的修正主成分分析法,按照最大奇异值原则进行多级指标合并则可以保证主成分分析中奇异值最大的主成分含量不减,因而不会因为多级指标的合并带来主成分结构的破坏。本文采用矩阵最大奇异值合并方法,该方法保证了合并对原有主成分的影响较少。该方法最大特点和优势在于客观性,即不是根据人的主观判断,而是由数据自身的特点决定。这种方法可以在尽可能保留原有数据所含信息的前提下实现对统计数据的简化,并达到更为简洁明了的揭示变量间关系的目的。本课题所选定的分析方法是基于矩阵奇异值分解的修正主成分分析法。该方法克服了主成分分析方法无法区分不同类别的低级指标的缺点,采用分块矩阵奇异值范数得到高级指标的数量值,然后采用标准的主成分分析方法,有效地解决了多级指标的主成分分析问题。
(作者单位:合肥工业大学经济学院)