论文部分内容阅读
成分数据是普遍存在的一种数据类型,仅包含相对信息,表示某一整体中各变量的相对贡献。用成分数据对事物进行描述,可以反映事物的结构特性。由于成分数据具有非负性和定和约束,如果直接将其视为欧氏空间的普通数据进行分析,结果会产生严重偏差。因此,对成分数据进行分析需遵循成分数据的基本原则。相似性度量是统计研究中重要问题,距离则是作为统计分析中重要的相似性度量指标。对于成分数据,Mahalanobis距离指标是否适用于成分数据的相似性度量,是成分数据研究中值得研究的问题。模糊聚类分析是与相似性度量指标关系密切的统计方法之一,相似性度量指标的选择直接影响模糊聚类的效果。模糊C均值聚类算法是目前广泛应用的模糊聚类算法之一,论文以成分数据这一特殊数据类型为研究对象,构建基于成分数据Mahalanobis距离的模糊C均值聚类算法,研究具有较强的理论价值和应用意义。论文首先严格证明基于三种不同的对数比变换下的Mahalanobis距离符合成分数据相似性度量标准,其次提出基于成分数据Mahalanobis距离的模糊C均值聚类算法(Fuzzy C-Means Based on Mahalanobis diatance for Compositional data,简称FCM-ML),通过数值模拟与实证分析来验证FCM-ML算法的有效性,然后将FCM-ML算法应用到成分数据的缺失值填补中,提出基于成分数据Mahalanobis距离的缺失值填补法——FCM-ML填补法,并通过数值模拟和实证分析来得到FCM-ML填补法的填补效果。论文的研究不仅丰富了成分数据模糊C均值聚类算法,同时也丰富了成分数据缺失值填补方法。论文的具体研究内容包括:(1)根据Palarea-Albaladejo等(2012)提出的相似性度量指标应满足度量不变性、扰动不变性和子成分优势这三个基本标准,来检验经过三种不同对数比变换的成分数据的Mahalanobis距离是否满足成分数据相似性度量的基本标准。(2)将成分数据的Mahalanobis距离应用于成分数据的模糊C均值聚类算法中。针对完整成分数据集,论文提出基于成分数据Mahalanobis距离的模糊C均值聚类算法(FCM-ML),并通过数值模拟和实证分析,与视成分数据为普通欧氏数据的不经变换的基于原始的Mahalanobis距离的模糊C均值聚类算法(FCM-ML(crude))和Palarea-Albaladejo等(2012)提出的基于Aitchison距离的成分数据模糊C均值聚类算法(FCM-Aitchison)进行比较,得出FCM-ML算法的有效性和适用范围。(3)将成分数据的FCM-ML算法应用于成分数据缺失值填补中。针对具有缺失值的成分数据集,提出基于FCM-ML算法的成分数据缺失值填补法。通过数值模拟和实证分析,与Hron(2010)提出的成分数据缺失值填补法K近邻填补法(KNN)以及迭代回归填补法(LISR)进行比较,得出FCM-ML填补法的填补效果。研究结果表明:(1)三种不同对数比变换的成分数据的Mahalanobis距离由于等价性可以统一为成分数据的Mahalanobis距离,同时满足Palarea-Albaladejo等(2012)提出的三个基本标准,可以作为成分数据相似性度量的指标。(2)在完整成分数据集的模糊C均值聚类算法的比较中,由于FCM-ML(crude)算法忽视了成分数据的特性,视成分数据为普通欧氏数据,从而其聚类效果不及本论文提出的FCM-ML算法;由于FCM-ML算法同时考虑了成分相关度,当成分数据的成分之间具有一定相关度时,论文提出的FCM-ML算法优于FCM-Aitchison算法,反之则相反。FCM-Aitchison算法和FCM-ML算法则各有其适用性。(3)在成分数据缺失值的填补方法比较中,在缺失率一定的情况下,随着成分相关度的增加,论文提出的FCM-ML填补法的效果越来越高,其填补效果优于KNN填补法和LISR填补法;在成分相关度一定的情况下,随着缺失率的增加,FCM-ML填补法的填补效果则逐渐降低,但相应的FCM-ML填补法的填补效果始终优于KNN填补法和LISR填补法。论文的可能创新之处有两点:其一是以成分数据这一特殊数据类型为对象,探究Mahalanobis距离是否可以作为成分数据相似性度量的指标。研究表明对于成分数据,经过对数比变换的Mahalanobis距离符合成分数据相似性度量的指标要求。其二是提出基于成分数据Mahalanobis距离的模糊C均值聚类算法,并将该算法应用于成分数据缺失值的填补中。通过数值模拟和实证分析来探究论文提出的方法的有效性和适用范围,具有一定的优越性。