余弦度量下的高维数据降维及分类方法研究

来源 :大连理工大学 | 被引量 : 8次 | 上传用户:feitianxueyuan110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着数字化、多媒体等技术的迅速发展,促使机器学习领域飞速发展,其中,维数约简、数据分类是两个非常重要的课题。目前,在维数约简、数据分类方法中,大多采用欧氏距离度量样本间的相似性,少有其他度量方法的研究。随着度量学习研究的深入,使得样本间的相似性度量得到重视。本文主要研究余弦度量下的维数约简和分类问题,并将其应用到人体运动时间序列分析和数据流学习中。在对维数约简算法及分类算法深入分析的基础上,取得了如下创新性成果:(1)针对局部切空间排列算法无法学习局部高曲率数据集的问题,给出了描述数据集局部曲率的参数及局部的鲁棒子空间。在非线性降维方面,提出一种局部最小偏差空间排列算法,该算法考虑到局部切空间低鲁棒性的缺陷,在计算局部最小偏差空间的同时,能够发现数据的局部高曲率现象,通过参数控制及邻域间的连接信息,减少计算局部高曲率空间的可能,进而利用空间排列技术进行降维。进一步地,为了实现人体运动时间序列的分割,将最小偏差空间排列算法及局部曲率拓展为序列弯曲的流形学习方法,该方法根据序列数据的局部弯曲指标描述人体运动的连贯性,利用过渡片段数据局部弯曲较大的特点,寻找分割点。通过滤波技术及分段线性近似算法对局部弯曲指标数据进行处理,结合降维后的特征曲线,实现人体运动时间序列的分割。然而,非线性降维的应用并不广泛,相比之下,线性降维应用前景较好。在线性降维方面,以往的许多提取局部样本信息的全局线性算法的学习效果优于主成分分析(Principal component analysis, PCA)等全局算法,但这些算法都没有提取数据集局部的特征,导致局部样本没有得到彻底学习。在分析局部空间的基础上,提出一种保留局部特征的全局线性流形学习算法——最大相似嵌入(Maximal similarity embedding, MSE),该算法通过余弦度量来反映数据的局部几何特征,并通过整体的相似性的最大化达到降维的目的。最大相似嵌入能够学习稀疏分布的流形,广泛应用于人脸识别等领域,并成功避免了小样本问题。(2)通过线性判别分析及最大边界准则算法深入分析了离散度对子空间选择的影响,并给出了线性判别分析(Linear discriminant analysis, LDA)及最大边际准则(Maximum margin criterion, MMC)离散度的界,以此说明不同情况下LDA与MMC在子空间选择上的异同。同时分析了离群类对子空间选择的影响。进一步地,根据上述分析,提出一种基于余弦度量的子空间选择方法——角度线性判别嵌入(Angle linear discriminantembeded, ALDE),该方法利用角度余弦得到新的类内及类间离散度矩阵,同时避免了小样本问题。为了处理高维数据,将ALDE拓展为两步的ALDE算法。进一步地,在数据流学习中,由于数据流存在概念漂移现象,使得传统的机器学习方法不再适用。同时,数据流要求实时学习,很多概念漂移检测方法难以满足实时性。为了解决该问题,提出一种基于鲁棒子空间学习的数据流学习框架,该方法改进了经典的线性判别分析算法,不仅可以快速检测数据流的概念漂移,而且能够实时的对数据流进行分类。(3)分析了一种基于模型的分类算法一一极端学习机(Extreme learning machine, ELM)。ELM训练速度快,分类率高,已经广泛应用于模式识别、数据挖掘等实际问题中,并取得了较好的效果。但实际问题中数据分布往往不规则,并含有离群点,降低了ELM算法(核ELM)的分类率。这主要是由于:①激活函数及核函数选取不当以及离群点造成的过拟合现象;②带标记的样本太少,没有充分利用无标记的数据。针对第一个问题,深入分析不同激活函数的性质,提出一种鲁棒激活函数(Robust activation function, RAF),该激活函数可尽量避免激活函数的输出值趋于零,同时避免离群点对算法的影响,提升ELM算法(核ELM)的性能;同时,RAF还可用于其它的核方法及神经网络学习中。针对第二个问题,本文提出一种拓展的半监督ELM算法。进一步地,在半监督ELM基础上,提出了半监督的核ELM (SK-ELM)算法,使其能够处理非线性数据。
其他文献
目的探讨累积高血压暴露和臂踝动脉脉搏波传导速度的关联。方法在参与开滦集团第1次健康体检(2006年~2007年)的101510名开滦职工中,按照分层随机抽样标准方式抽取观察对象,其
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
不确定非线性系统的反馈控制是控制理论中一个热点研究领域,广泛应用于机器人系统、航天系统、电力系统、经济系统等.与线性系统相比,非线性系统对实际系统的描述更精确,但研
研究从近年来农村地区特色资源的保护现状入手,简单分析城乡统筹工作背景,并以南京市农村地区的特色资源普查试点工作为例,探索农村地区特色资源的类型、普查方法、普查工作
随着通讯技术,物联网技术,传感器技术等技术的迅速发展,当今几乎在任何地方都可以产生数据。这些实际应用中获取的数据,往往由于各种各样的原因会出现数据缺失的情况。例如,
小学数学形象思维能力在小学生的学习过程中发挥着非常重要的作用。所以,培养并强化形象思维能力已经成为小学阶段被热切关注的问题,呈现势在必行的状态。否则,小学生的学习质量
游戏是人类学习先人经验和知识的一种手段,正因为如此,所以,游戏的内容能够在某种程度上反映人们所处时代的一些生产生活状况,从这个角度来看,玩游戏不是单纯的玩乐,它也是一种学习
随着新课程的实施,新课程理念深入人心,其提倡课堂教学要“动手实践,自主探索与合作交流”。作为小学数学教师,要积极为小学生创设主动探索、动手实践、合作交流的学习情景和方式
随着我国社会经济的发展和互联网技术的进步,普通高等院校思想政治教育工作的方式也有了新的变化。对比传统教育模式下的爱国主义宣传片教育、马克思列宁主义专业理论教育,新
近年来急速发展的东莞,群众文化活动充足,但是活动缺少特色、缺乏历史沉淀、市场化探索劲道不足等现实,本文从思想意义、活动的开展实施、历史意义三个方面提出促进群文活动