基于流形学习的数据降维的研究

来源 :广东工业大学 | 被引量 : 7次 | 上传用户：fz1122

【摘要】

：

随着计算机科学技术的迅速发展,非结构化的高维数据大量涌现。高维数据不仅难以被人们直观理解,而且难以被现有的机器学习和数据挖掘算法有效地处理。如何有效地利用这些海量

【作者】

：

唐文俊

【机构】

：

广东工业大学

【出处】

：

广东工业大学

【发表日期】

：

2012年01期

【关键词】

：

数据降维流形学习 Nystrom方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机科学技术的迅速发展,非结构化的高维数据大量涌现。高维数据不仅难以被人们直观理解,而且难以被现有的机器学习和数据挖掘算法有效地处理。如何有效地利用这些海量高维数据已经成为未来企业竞争的砝码。数据降维算法是有效处理这些高维数据的一个重要手段,同时也是特征提取的重要工具,数据降维算法在模式识别中扮演着越来越重要的角色。流形学习(Manifold Learning)算法是近年来发展起来的一种非线性降维算法,2000年,J. B. Tenenbaum、Sam、Roweis等人在《科学》杂志的同一期上发表了关于流形学习方面最有影响的两篇文章。他们提出了各自的流形学习算法：等距特征映射(Iisometric Feature Mapping,简称为ISOMAP)和局部线性嵌入(Locally Linear Embedding,简称为LLE),并首次使用了manifold learning术语,标志着以非线性为主要特征的流形学习方法的诞生。经过近12年时间的进一步发展,出现了很多流形学习算法,如LSTA、LE、Hessian LLE等。核方法在流形学习算法如局部线性嵌入,ISOMAP算法,拉普拉斯特征映射也取得了很大效果。推动流形学习成为机器学习领域中的热点问题。本文围绕流形学习算法展开,从线性降维算法、非线性降维算法(流形学习算法)等方面对数据降维算法进行了一些研究。随着数据降维在许多领域的重要应用,以及其数学基础——微分几何的逐步完善,流形学习将在许多领域发挥重要作用。本论文在第一章主要介绍了数据降维的目的以及非线性数据降维方法流形学习的研究背景、以及进展,还介绍了流形学习方法的一些基本的概念。论文在第二章介绍了两种经典的线性降维算法,它们分别是主成分分析(Principal Component Analysis PCA)和线性鉴别分析(Linear Discriminant AnalysisLDA)。论文在第三章主要介绍6种经典的流形学习方法,包括多维尺度变换(Multidimensional Scaling, MDS)、等距特征映射(Isometric Feature Mapping ISOMAP)、局部线性嵌入(Locally Linear Embedding LLE)、拉普拉斯特征映射(laplacian eignmapLE)、黑赛局部线性嵌入算法(Hessian LLE)、局部切空间排列(Local Tangent Space Alignment LTSA)等。论文还分析了这些流形学习方法各自的优缺点以及它们的异同点。并使用matlab软件对这6种经典流形学习算法进行了模拟实现,论文中给出了实验结果以及一些分析。在论文的第四章基于密度聚类的Nystrom算法思想,提出了一种改进流形学习准确性的方法。Nystrom算法是一种经典的近似处理积分方程的算法,它还可以用在数据降维中对核矩阵的近似处理中,从而减少数据降维算法中的大型样本的复杂的矩阵运算。它已成功地应用到一些流形学习算法,如MDS。由于Nystrom方法是进行矩阵抽样时是随机抽样来代替原始样本的数据,所以虽然减少了计算量,但带来的问题是准确性受到影响。本论文在中提出了一种改进算法,将这个算法应用在流形学习降维算法里,用来提高流形学习算法的效率,并在大规模数据集上进行了实验,取得了一些探索性结果。

其他文献

传感网可编程控制模块WSN-PCM的设计及应用

无线传感器网络WSN是当前嵌入式与物联网领域的研究热点之一。WSN的应用开发涉及传感器、无线通信与组网、嵌入式软硬件设计及应用对象领域等综合技术。WSN的应用研究与产品

学位

无线传感器网络通用化可配置构件化WSN-PCM

基于HMM的噪声语音端点检测方法研究

目前，语音端点检测已经成为语音识别，语音编码及语音分类等语音处理过程中必不可少的一部分。作为语音技术的预处理，语音端点检测（Voice Activity Detection，VAD）准确率的微小改进

学位

VAD语音处理特征属性HMMLRTK-means聚类

语音识别系统噪声鲁棒性算法研究

近年来，随着语音识别技术不断地发展，语音识别系统已开始从PC机逐步走向嵌入式平台。然而当嵌入式语音识别系统应用到真实的操作环境中时，由于训练环境和识别环境的不匹配，导致其

学位

语音识别噪声鲁棒性语音增强STCMVN算法

基于EMD的目标跟踪算法与实现

目标跟踪技术是计算机视觉领域中的热门课题之一，目前该技术已广泛应用于民用、军用和工程等各个领域，本文主要研究基于EMD(Earth Movers Distance)的目标跟踪算法研究与实现。

学位

目标跟踪算法EMD技术偏微分方程目标轮廓相似性变换仿射变换

加权关联规则在入侵检测中的研究与应用

入侵检测是网络安全的主动防御工具,当检测到入侵行为时,要求响应单元尽可能快速响应处理,并记录其特征,以便于以后的检测。由于发生的入侵行为大多具有相关性,故入侵行为的

学位

入侵检测加权关联规则MINWAL(0)算法WAFP算法

基于蚁群聚类的舌像分割方法研究

图像分割的目的就是把图像分成具有不同特征的区域,并通过一定的方法把人们感兴趣的内容提取出来的过程,在医学图像的分析、计算机视觉、图像编码等很多领域也已得到了实际的

学位

图像分割舌像蚁群聚类彩色

螺杆钻具的流固耦合计算和模态分析

石油作为工业发展的血液,不仅是动力燃料的来源,其提炼物更是深入到我们生活的方方面面。随着开采深度的加深,钻井难度的加大,要求螺杆钻具性能更高,螺杆钻具设计的好坏影响

学位

螺杆钻具试验台模态分析流固耦合计算

基于多类支持向量机的协同入侵检测

互联网的兴起,用户爆炸性的增长,新的威胁和攻击不断出现,对网络的安全提出了新的挑战,尤其是海量数据、噪声处理以及在线学习问题,网络安全问题逐渐成为亟待解决的首要问题

学位

入侵检测加权多类分类协同机制支持向量机

面向嵌入式系统的文本无关说话人识别技术研究

随着信息技术的迅速发展，人机交互技术的不断普及，说话人识别(SpeakerRecognition，SR)以其独特的方便性、经济性和安全性等优势受到了越来越多人的关注，在信息安全等领域的应用也

学位

嵌入式平台说话人识别文本无关支持向量机分类器融合

基于深度神经网络的医学图像超分辨重建

学位

基于流形学习的数据降维的研究

与本文相关的学术论文