基于Mahalanobis距离的成分数据模糊C均值聚类算法

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:zel0088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
成分数据是普遍存在的一种数据类型,仅包含相对信息,表示某一整体中各变量的相对贡献。用成分数据对事物进行描述,可以反映事物的结构特性。由于成分数据具有非负性和定和约束,如果直接将其视为欧氏空间的普通数据进行分析,结果会产生严重偏差。因此,对成分数据进行分析需遵循成分数据的基本原则。相似性度量是统计研究中重要问题,距离则是作为统计分析中重要的相似性度量指标。对于成分数据,Mahalanobis距离指标是否适用于成分数据的相似性度量,是成分数据研究中值得研究的问题。模糊聚类分析是与相似性度量指标关系密切的统计方法之一,相似性度量指标的选择直接影响模糊聚类的效果。模糊C均值聚类算法是目前广泛应用的模糊聚类算法之一,论文以成分数据这一特殊数据类型为研究对象,构建基于成分数据Mahalanobis距离的模糊C均值聚类算法,研究具有较强的理论价值和应用意义。论文首先严格证明基于三种不同的对数比变换下的Mahalanobis距离符合成分数据相似性度量标准,其次提出基于成分数据Mahalanobis距离的模糊C均值聚类算法(Fuzzy C-Means Based on Mahalanobis diatance for Compositional data,简称FCM-ML),通过数值模拟与实证分析来验证FCM-ML算法的有效性,然后将FCM-ML算法应用到成分数据的缺失值填补中,提出基于成分数据Mahalanobis距离的缺失值填补法——FCM-ML填补法,并通过数值模拟和实证分析来得到FCM-ML填补法的填补效果。论文的研究不仅丰富了成分数据模糊C均值聚类算法,同时也丰富了成分数据缺失值填补方法。论文的具体研究内容包括:(1)根据Palarea-Albaladejo等(2012)提出的相似性度量指标应满足度量不变性、扰动不变性和子成分优势这三个基本标准,来检验经过三种不同对数比变换的成分数据的Mahalanobis距离是否满足成分数据相似性度量的基本标准。(2)将成分数据的Mahalanobis距离应用于成分数据的模糊C均值聚类算法中。针对完整成分数据集,论文提出基于成分数据Mahalanobis距离的模糊C均值聚类算法(FCM-ML),并通过数值模拟和实证分析,与视成分数据为普通欧氏数据的不经变换的基于原始的Mahalanobis距离的模糊C均值聚类算法(FCM-ML(crude))和Palarea-Albaladejo等(2012)提出的基于Aitchison距离的成分数据模糊C均值聚类算法(FCM-Aitchison)进行比较,得出FCM-ML算法的有效性和适用范围。(3)将成分数据的FCM-ML算法应用于成分数据缺失值填补中。针对具有缺失值的成分数据集,提出基于FCM-ML算法的成分数据缺失值填补法。通过数值模拟和实证分析,与Hron(2010)提出的成分数据缺失值填补法K近邻填补法(KNN)以及迭代回归填补法(LISR)进行比较,得出FCM-ML填补法的填补效果。研究结果表明:(1)三种不同对数比变换的成分数据的Mahalanobis距离由于等价性可以统一为成分数据的Mahalanobis距离,同时满足Palarea-Albaladejo等(2012)提出的三个基本标准,可以作为成分数据相似性度量的指标。(2)在完整成分数据集的模糊C均值聚类算法的比较中,由于FCM-ML(crude)算法忽视了成分数据的特性,视成分数据为普通欧氏数据,从而其聚类效果不及本论文提出的FCM-ML算法;由于FCM-ML算法同时考虑了成分相关度,当成分数据的成分之间具有一定相关度时,论文提出的FCM-ML算法优于FCM-Aitchison算法,反之则相反。FCM-Aitchison算法和FCM-ML算法则各有其适用性。(3)在成分数据缺失值的填补方法比较中,在缺失率一定的情况下,随着成分相关度的增加,论文提出的FCM-ML填补法的效果越来越高,其填补效果优于KNN填补法和LISR填补法;在成分相关度一定的情况下,随着缺失率的增加,FCM-ML填补法的填补效果则逐渐降低,但相应的FCM-ML填补法的填补效果始终优于KNN填补法和LISR填补法。论文的可能创新之处有两点:其一是以成分数据这一特殊数据类型为对象,探究Mahalanobis距离是否可以作为成分数据相似性度量的指标。研究表明对于成分数据,经过对数比变换的Mahalanobis距离符合成分数据相似性度量的指标要求。其二是提出基于成分数据Mahalanobis距离的模糊C均值聚类算法,并将该算法应用于成分数据缺失值的填补中。通过数值模拟和实证分析来探究论文提出的方法的有效性和适用范围,具有一定的优越性。
其他文献
文化是民族生存和发展的重要力量。自党的十八大以来,党中央高度重视中华优秀传统文化的传承发展。优秀传统文化是中华民族的精神命脉,是最深厚的文化软实力。而在语文课程中,文言文作为传统文化的载体,承载着中华民族优秀的文化,它记录着美好的山川风物,质朴的民风民俗,表现优秀人物的优良品格,具有多方面的审美特征。可以说,文言文教学具有培养人格精神、传承中华文明、弘扬民族精神、提升文化积淀等等一系列积极作用。然
类风湿性关节炎是一种常见的风湿病,多见于女性,好发年龄为30-60岁,临床表现为慢性、进行性以小关节为主的全身性多关节肿痛,常双侧对称分布。类风关起病方式个体差异很大,况且,即
对于美国人而言,最重要的一点是要讨论(更不要说支持)税收——它是实现提高能效和降低消费这一双重目标的最强大、最有效的方法。
健康教育是卫生保健工作的基本内容,而学校健康教育是其中的一个重要组成部分。通过查阅文献和调查研究,对我国在校学习青少年开展健康教育现状分析,并对现存的问题提出几点建议
前不久结束的德班气候大会通过决议,建立德班增强行动平台特设工作组,决定实施《京都议定书》第二承诺期并启动绿色气候基金。在业内人士看来,德班会议达成的协议对于刚刚建立碳
<正>新课程把发展学生的空间想象力作为一个重要的目标,如何发展学生的空间想象力,是值得许多教师思考的一个问题。现以本人在教学《展开与折叠》过程中的点滴做法及思考与
行政事业单位是国家政策的直接贯彻者和执行者,承担着社会管理的主要职责。内控管理制度是行政事业单位内部管理的核心,可以推动行政事业单位的健康发展,落实廉政风险防控的
为了降低编解码复杂度,本文在对不同方向纹理块变换域系数特性分析的基础上,提出了一种简单有效的快速帧内预测模式决策算法。根据二维正交变换系数特性确定的决策准则,将可能性
兴趣是我们最好的教师,它也是激发学生学习的最原始动力,它可以有效地点燃一个人学习的欲望,同时也可以帮助一个人建立对学习的信心。所以,在教学过程中,我们一定要重视兴趣教学。
选址是所有实体店铺的经营者无法回避的工作,将直接影响店铺未来的经营业绩,对书店而言也不例外。由于W企业在书店选址过程中存在影响因素缺乏统一标准,各因素缺乏合理权重指标,决策过程主观性强等问题。因此,为提升书店选址效果,开展了相关研究工作,建立了W企业书店选址评价体系。首先,确定W企业书店选址影响因素是建立书店选址评价体系的第一步。通过运用德尔菲法,以W企业内部相关人员组建专家团队,开展多轮调研工作