数据降维技术的建模研究与应用——特征降维及其应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:ciper618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征降维是模式识别领域对高维数据分析的重要预处理步骤之一。在信息时代的科学研究中,不可避免的会遇到大量的高维数据,如人脸检测与识别、文本分类和微阵列数据基因选择等。在实际应用中,为了避免所谓的维数灾难问题,根据某些性质,将高维数据表示的观测点模拟成低维空间中的数据点,这一过程即为特征降维过程。总的来说,降维的目的是在保留数据的大部分内在信息的同时将高维空间的数据样本嵌入到一个相对低维的空间,而降维技术义可以分为“特征提取”和“特征选择”。经过适当的降维后,诸如可视化、分类等工作可以在低维空间中方便的实现。 本文研究目的是为了探索新的有监督特征降维方法,并提出了一种基于支持向量机(SVM)的特征选择方法和一组基于有监督局部保留准则的特征降维算法。文中简要介绍了特征降维的准则,回顾了当前的主要特征降维技术,如主成分分析(PCA)、Fisher线性判别分析(FLDA)和最近的基于流形的特征提取方法以及相关的特征选择算法。本论文重点是:(一)建立了一种改进的基于支持向量机(SVM)的特征选择算法,阐述了应用该算法进行特征选择的原理和方法;(二)建立了有监督的局部保留准则,阐述了应用该准则进行特征提取与特征选择的原理和方法。针对基于支持向量机(SVM)的特征选择问题,文中充分利用SVM的最大间隔特性,利用支持向量和核函数来对特征进行排序和选择。而对于基于有监督的局部保留准则的特征降维,文中在详细分析无监督的局部保留准则利弊的基础上,提出了保留类内局部结构的同时最大化类内分离度的降维准则,并分别应用于特征提取和特征选择。论文最后采用MATLAB来编程实现了文中提出的算法,选取了大量的数据集来进行实验。大量的实验结果都表明,本文提出的方法是有效的、可行的,并且与现有的一些特征降维方法相比,更为有效。
其他文献
本文利用RSS(RDF Site Summary)作为信息的采集源和发布单位,通过改造向量空间模型算法,在ASP.NET平台以及AJAX等技术支持下,实现面向用户的、轻量级动态信息采集与发布系统
珍珠产业是中国的传统产业和民族产业,我国是世界第一的珍珠大国。目前,珍珠的等级评判主要靠人工依据珍珠的颜色、光泽、形状、纹理等进行大致估计。这种估计在很大程度上受
虚拟现实技术是二十世纪末兴起的一门综合性信息及计算机应用技术,它融合了计算机图形学、三维实时动画技术、计算机接口技术、传感技术,人工智能等多个信息及计算机应用技术
随着我国海军的日益强大和海运的日趋繁荣,船行波的研究引起人们越来越多地关注。随着对船行波研究的深入,船行波的三维可视化研究成为新的研究课题。船行波的三维可视化仿真
医学体数据场可视化是从由医学切片(如CT、MRI等)组成的三维医学体数据场中获得人体的有用信息,并将其重构为三维模型,从而清晰地显示出人体器官或组织的复杂特征和空间定位
随着信息时代到来,数据库存储信息量急剧增大。面对庞大的数据资源,人们需要功能强大的工具来“挖掘”其中有用的知识。数据挖掘(Data Mining,DM)正是在这个背景下而提出的新
网格这一新兴的IT技术是继Internet和Web技术之后又一次重大的科技变革。它使得人们可以比以往任何时候都更加经济方便的使用高性能的网格资源,如计算能力,存储空间等等。然
分数阶混沌动力系统具有比整数阶系统更为复杂、丰富的动力学特性,近年来,基于分数阶微分和积分的动力学系统得到了较为广泛的研究,其中涉及分数阶电路、分数阶数字信号处理、分
医学影像是临床诊断的重要依据。如何针对医学图像的特点进行高效压缩,一直是图像压缩领域的热点问题之一。医学图像压缩要求在保证图像质量的前提下,尽量提高压缩比。新一代
本文分析了目前常见的基于Linux的高可用性双机系统的实现的特点、技术手段和局限性,研究了心跳检测、成员籍管理、可靠通信和多播等关键技术,设计了一个新的Linux高可用性双机