论文部分内容阅读
主成分分析是将多个相关指标转化成少数不相关指标的一种多元统计方法,常常用于数据压缩和特征提取,广泛应用于工业、农业、经济、生物、医学、天文、地理等领域.
在经典的主成分分析中,每个训练数据在构建主成分时的作用是相同的.然而,在许多实际问题中,训练数据的意义和作用是不同的,通常有些数据比其它数据更为重要.对于重要的数据我们应给予充分的重视,在构建主成分时应起更大的作用,而对于不可信数据(可能是异常数据),应限制其作用.
本文给每个训练数据赋予一个置信权重,将训练数据视为样本空间的模糊点,研究了基于模糊点数据的主成分分析,核主成分分析,GPCA以及主成分回归,并且分析了它们的统计性质.同时,为了说明这些方法能有效控制可能的异常点,在每个部分的最后都给出了相应的数值模拟例子.
数值例子还进一步表明,置信权重越大的数据对构建主成分的作用也越大,当置信权重全部取1时,本文提出的基于模糊点数据的主成分分析,核主成分分析,GPCA以及主成分回归就退化为相应的经典方法.因此,本文提出的四种方法可以说是经典的四种方法的一个推广,同时为数据先验信息的利用提供了一个途径.