高维数据的维数约简研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:_STLer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,我们所获取、存储和需要处理的数据开始呈指数级增长。这些数据不仅数量大、更新速度快,而且通常蕴藏着很多难以直接观察到的内在规律。针对这些高维海量数据,如何从中有效获取所需的信息,发现其内在规律,一直是机器学习等领域所面临的基本问题,而维数约简成为解决此类问题的有效方法之一。同时,对高维数据进行维数约简,能够有效避免维数灾难,移除高维空间中的噪声和无关属性,降低数据存储所需的空间,提高后续学习算法的性能和效率。两种最经典的降维方法是主成分分析(PCA)和线性判别分析(LDA)。PCA是一种无监督学习的降维方法,它的目的是寻找使得样本协方差最大的投影方向,LDA是一种监督学习的降维方法,它的目的是寻找使得同类样本尽量聚集,不同类样本尽量分散的投影方向。但它们在提取数据特征的过程中,存在全局正态分布的模型假设,当实际样本与这种分布假设不相符时,其性能将受到极大影响。近些年,很多基于流形学习的线性判别分析算法相继被提出,但它们通常采用某一固定参数模型(如高斯函数)来描述数据的内部几何结构,数据分布的复杂多样造成固定参数模型并非数据本质结构的最优描述。为了解决这些问题,本文提出了几种改进算法,以更快速有效地提取高维数据的内在本质特征,并将所提方法应用于人脸识别等实际问题。本文的主要研究成果为:1、针对目前大部分基于LDA改进的算法鲁棒性差的问题,提出了动态加权非参数判别分析(DWNDA),该算法通过引入动态加权距离度量,使得样本点之间的距离计算方式随着其模式分布的不同动态调整。DWNDA在计算类内散布度的过程中,考虑了同类模式样本的复杂分布模态,特别是各个模态之间分布特征的差异性,便于提取同类模式样本的内在几何结构特征;在计算类间散布度的过程中,突出边缘样本点对的影响,同时利用了不同样本点的统计特性,降低了噪声样本的影响。2、针对一些基于图嵌入的算法存在的鲁棒性差及超参数设置问题,提出了归一化局部敏感判别分析(NLSDA),该算法在构建类内和类间邻接图矩阵时,通过对边权重进行归一化,以降低噪声样本的影响力,提高算法的鲁棒性。同时,NLSDA不需要设置邻域就能够很好的学习数据的局部拓扑结构,解决了很多图嵌入算法存在的超参数设置问题。3、针对传统基于欧氏距离度量的算法存在的局部拓扑结构损坏及鲁棒性差的问题,提出了自适应局部敏感判别分析(ALSDA)。ALSDA在本文所提NLSDA的基础上,引入了自适应范数来度量嵌入空间中样本点之间的距离,既保留了NLSDA的优点,同时更好地保护了数据的局部拓扑结构,增强了对异常样本点的鲁棒性。通过在人脸数据库和手写体数据库上进行实验,并和一系列经典的维数约简方法进行比较,验证了本文所提算法的有效性。
其他文献
回顾了我国海洋遥感取得的成绩,讨论了国民经济持续高速发展对海洋遥感的迫切需求、我国海洋遥感技术的差距以及关于发展我国海洋遥感的建议与措施。
胃癌以发病率高,预后较差威胁着人类的健康。作为我国最常见的恶性肿瘤,胃癌的死亡率也高居恶性肿瘤的第三位。大部分患者发现时已是肿瘤晚期,这为治疗和病人生存带来了极大
《扶桑》是严歌苓反映旧金山第一代华人移民历史的代表作,讲述了华人妓女扶桑与白种少年克里斯及唐人街霸主大勇之间的情感纠葛。大勇是一个性格复杂、善恶兼备且极具雄性气概
日本经济产业省(METI)2011年1月3日公布的初步数据显示,日本2010年11月精炼锌库存较上个月增加11.5%至18,942吨。日本11月精炼锌库存较2009年11月减少11%。日本11月精炼锌产量环比增
具体目标为:单位国内生产总值能耗比上年下降3.S%;二氧化硫、化学需氧量、氨氮和氮氧化物四项主要污染物排放量均比上年减少1.5%;万元工业增加值用水量比上年下降7%;工业固体废物综合
江西省发改委称,江西省对高耗能、低产出新建项目和扩大产能项目年内原则上不再审批、核准和备案。在各类招商引资活动中,凡自行制定的不符合有关法律法规和国家产业政策的优惠
“中国财政发展协同创新中心”由中央财经大学牵头,以上海财经大学、中南财经政法大学、东北财经大学、江西财经大学和山东财经大学等原财政部直属的六所财经类高校及三家国家
<正>目的:普美显是一种肝脏特异性对比剂,能够被正常肝细胞摄取,对肝脏局灶性病变的检查及定性诊断具有较高的特异性。本文组回顾及总结普美显增强磁共振检查病例,重点研究小
会议
经济社会进入新常态,既为各级工会组织带来压力与挑战,也为工会组织凸显独特作用于火热的社会实践中,提供了更为广阔的舞台,为不断提升工会工作科学化水平,使工会更好更出色
目的评价高频消融电极在剖宫产手术中的使用效果。方法方便选取2017年2—8月该院收治的124例剖宫产患者作为研究对象,随机分为观察组(62例)和对照组(62例)两组。观察组使用高