高维复杂数据的有监督特征提取方法

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:srsyzjks
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前数据维数的大幅增长给数据处理带来了前所未有的挑战,如何从这些高维复杂的数据中发现事物的本质规律成为了迫切需要解决的问题.作为处理高维数据中非常重要的前处理步骤~数据降维~也就越来越受到人们重视.对高维复杂数据降维方法的研究,是一个非常有挑战性的问题,有着重要的理论价值,并在模式识别、生物信息学、数字图像处理等领域有着广泛的应用.本文研究以数据的分类、可视化为目标的高维复杂数据降维的理论与方法,提出如下针对不同情形的降维算法: 在基于可分性准则的前提下,针对目前缺乏有效降维算法的高维小样本数据集,提出了一种新的有监督的特征提取算法—判别多维尺度映射(discriminate multidimensional mapping,DMM).它是在结合了经典的多维尺度变换(classical MDS)和线性判别分析(LDA)优点的基础上提出来的.DMM算法能有效地处理维数远大于样本数的数据集,并且还有着很多良好的性质:计算量小,无任何参数的设置,具有解析解.文中给出了算法的理论支持,并通过大量的数值实验验证了算法的有效性. 当DMM算法应用于大样本数据集时,会出现计算量过大的问题.本文引入landmark思想,提出了适合高维大样本数据集的改进的DMM算法—landmark判别多维尺度映射(LDMM).LDMM算法不仅能极大地减少计算量,而且参数设置简单灵活.数值实验显示了算法的稳定性和有效性. 提出了基于流形结构数据集的特征提取算法—测地度量判别映射(geodesic—metric discrim-inate mapping,GDM).它是在DMM的基础上通过引入测地距离来保留数据分布在全局上的非线性特性,从而实现了将线性降维算法DMM到非线性降维算法GDM的转化.数值实验验证了GDM能使存在流形结构数据集的降维结果适于分类. 当数据集存在流形结构,并且给定的样本点能近似逼近流形时,Isomap算法能有效地发现数据的内在低维结构.但是当部分数据缺失时,Isomap算法中测地距离的计算会产生巨大的偏差而使算法失效.本文针对具有间断流形结构的数据集提出了测地距离的计算方法,推广了Isomap算法.大量的数值实验表明它在数据缺失的情况下也能有效地发现数据的内有结构.类似于Isomap,新的测地距离计算方法同样也适用于GDM.
其他文献
地下室基坑施工现场安全管理是一项系统工程,它的良好运行不仅仅需要技术、信息、教育、管理、安全文化等多种内在因素的力量,还需要政府监管、舆论力量以及全社会的支持等多
期刊
本文主要研究了随机微分方程解的存在性和有界性理论,首先将随机微分方程和随机泛函微分方程解的存在唯一性的充分条件进行了相应的改进。接下来,系统给出了随机微分方程解的
学位
在自然界和人类社会中,广泛的存在着各种各样的复杂网络,如电力网、因特网、基因调控网等.近年来,许多研究者从系统学的观点研究了网络的动力学行为与网络的拓扑结构之间的关系,
在当今高考的大环境下,体育加试也显得尤为重要,然而在高考的体育加试中,不少考生出现焦虑情绪,对考生的心理产生不同程度的影响,比如导致考生考试状态失常,影响考生成绩.只
本文研究了伪欧氏空间E中具有至多三个不同主曲率且满足方程Δ→H=λ→H的超曲面M,并得到其平均曲率为常数.这个方程是2-调和子流形方程Δ→H=0的一个自然推广.  为了完成
我们考虑按比例分红策略下具有常利率的传统的风险过程。我们得到了关于Geeber-shiu折现罚金函数的积分方程并且给出了确切的解。进一步我们又得到了关于破产时间,破产前的瞬
学位
教育信息化和数字校园是高等学校教育工作的一项重要内容,是整个学校管理的核心和基础。计算机技术的飞速发展和Internet的迅速普及促进了基于网络的教学管理系统的发展。网
变分不等式问题(VIP)是运筹学中的一个基本问题,同时在经济学、生态学、工程科学和金融学等很多领域具有广泛应用.因此,从上世纪60年代以来,变分不等式问题一直得到了众多研究者的
随着模糊数学的发展,集值映射的重要性的日益突出,各种数学结构都有由论域向其幂集上提升的需要。自从李洪兴教授在文献中考虑了代数结构的提升问题,并首次提出了HX群的概念,文献