基于模糊集理论的主成分分析方法研究

被引量 : 21次 | 上传用户:lx2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多实际应用领域中,我们面临的往往是多变量(特征)大样本数据的分析和处理问题,即高维数据的分析和处理问题。这类问题的共同特征之一是,众多的变量(特征)提供了在一定程度上有所重叠的信息,使得人们很难抓住主要信息。因此,人们希望在对数据进行定量分析的过程中,能够事先进行高维数据的降维或特征提取,以便用维数较少且互不相关的新变量来反映原变量所提供的绝大部分信息。主成分分析便是适应这一要求的理想工具。然而,虽然主成分分析是一种成熟的数据降维或特征提取的方法,对于适合的数据集可以达到非常理想的降维或特征提取的效果,但其基本思想是通过线性变换来构造原变量的一系列线性组合,各个主成分反映的只是原始数据中变量之间的线性相关性。对于给定的数据集,如果变量(特征)之间存在的是非线性关系,或者给定的数据是非数值型数据,那么主成分分析的效果就会大打折扣,甚至无法操作。模糊集理论是为处理现实世界中的含糊或模糊现象而提出的一种数学方法,发展至今,也为非线性问题提供了一些行之有效的处理手段。本文选择变量之间具有非线性相关性的数据降维(非线性特征提取)和区间值数据降维两个问题,借助模糊集理论中的有关思想,进行了初步的探讨。针对非线性特征提取问题,本文提出了一个基于模糊相似测度的主成分分析算法。这个算法利用模糊相似测度矩阵代替主成分分析算法中的协方差矩阵,来提取具有非线性相关性的数据集之中的主成分,从而使得这些新变量所提供的信息比经典的主成分分析算法所提供的信息更为充分。针对以模糊数或区间值数据描述的数据集的特征提取问题,本文提出了一个简便易行的区间值数据的主成分分析算法。这个算法借鉴成熟的区间值数据模糊聚类分析的方法和比较简便的中点半径主成分分析法,既综合考虑了区间值数据的中值和半径提供的信息,又具有计算简便的优点。为了验证本文提出的两个算法的可行性和有效性,我们还借助模糊聚类分析方法,对两个真实数据集进行了相应的实验对比,以期实现从思想描述到算法设计再到实例验证的完整研究过程。
其他文献
水是重要的生活、生产资料,为了保证住宅建筑的舒适性必须重视给排水系统的设计和施工。目前,我国的住宅建筑在给排水方面主要存在卫生间给排水管设置不合理、上下水管经常出
随着计算机技术与信息技术的发展,航海领域的自动化和智能化成为航海科技工作者新的研究方向,海上船舶安全也一直是全球普遍关注的重要问题,这一问题将一直影响海上交通的安
英语学习是一个非常复杂的习得过程,它涉及诸多因素。这些因素所起的作用直接影响着学习者的英语学习成绩。特别是学习者自身的因素是最直接和最主要的因素。本文研究的是非
随着社会经济技术的不断发展,政府逐渐强调以人为中心的思想以及可持续发展的战略原则,工程建设项目社会影响评价日益受到人们的重视。但由于种种原因尚没有形成统一的规范。
在聚合物的注射成型加工中,聚合物要经受热和机械剪切的作用,在一定形状的模具内,制成固定形状的制品。在此过程中,聚合物的聚集态结构要发生一系列的变化,对于结晶型聚合物,分子链
随着经济和建筑技术的发展,我国的建筑高度在逐渐的增加,在21世纪的今天,人们对于居住条件的要求也越来越高,因此,建筑中设备的完善和功能的齐全成为了建筑的全新发展方向。
邮轮旅游自20世纪60年代后期发展至今,一直是国际旅游业中增长幅度最大的一项业务。由邮轮旅游拉动而发展起来的邮轮经济,对一个国家、一个地区的影响非常深远,往往可以成为
农桑14号是一个优质、高产、抗病性强的桑树新品种,于2000年通过了浙江省农作物品种审定委员会审定。本试验旨在通过对农桑14号组培工厂化苗育苗技术进行初步探讨,以使这一优
本试验以“秀丽”番茄品种为试材,采用简易栽培槽进行有机基质栽培,研究了由稻壳、废菌渣、发酵玉米秸秆、发酵小麦秸秆、羊粪和大田土壤构成的5个有机基质配方对日光温室主
随着武警部队住房保障制度改革的深入,武警部队经济适用住房迅速发展,有效地缓解了干部住房紧缺的矛盾。但对武警部队而言,利用军用土地建设经济适用住房已经难以为继,而大部