面向高维复杂数据的降维算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:outtersea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、互联网、数据采集等信息技术的快速发展及应用推广,“数据”已经逐渐融入当今时代社会生产、生活的各个领域,人们可以更加方便快捷地获取相关的研究数据或生产、生活信息,同时也导致了数据库中数据规模越来越大、数据类型逐渐多样化、数据结构趋于复杂化、数据价值密度较低。如何从这些高维、海量、结构复杂、信息冗余较大的数据中提取出对识别、分类或检索等实际应用更有效的信息,即数据降维算法的研究,成为数据挖掘、机器学习、模式识别等领域的重要研究内容,对进一步实现更加准确、快速的数据分类或信息检索等具有重要意义。针对现有数据降维算法存在的问题和不足,本文从新的思维角度出发,深入研究面向高维复杂数据的降维算法,主要工作和贡献总结如下:首先,针对单一的数据降维算法提取的低维特征判别性能有限的问题,本文提出了一种基于密集子图检测的维度选择算法。该算法以现有数据降维算法得到的低维数据特征集合为处理对象,定义维度选择的判别性保持准则和独立性保持准则,然后将维度选择准则嵌入到图模型中,通过检测图模型中相关性最强的密集子图实现判别性维度的二次选择。该算法综合多种传统数据降维算法的优点,能够适用于高维复杂结构数据的判别性低维特征提取。其次,本文提出了一种局部判别性广义特征向量提取算法。该算法基于信噪比函数构造数据降维模型,首先在每个训练样本的局部近邻区域内定义局部信号和局部噪声,其次根据不同的局部信号和局部噪声组合形式,构造不同的信噪比目标函数,从而将多分类数据降维问题简化为“一对多”或“一对一”的二分类数据降维问题,然后通过广义特征分解求得使信噪比最小的特征投影方向,最后引入非线性变换构造算法的分层结构。该算法直接通过近邻样本间的欧氏距离进行判别性度量,克服了对高斯分布先验假设的依赖性,将多分类数据降维问题进行简化,使提取的每一维特征都具有直观合理的解释,分层结构的引入能够挖掘潜在的非线性信息。最后,本文提出了一种基于吉布斯采样的结构化PFC算法。该算法是一种无监督的数据降维方法,首先通过聚类分析获得原始数据的聚类信息,其次对聚类中心进行低维流形结构学习,保持数据在高维观测空间中的全局分布结构,然后构造聚类中心与训练样本之间的近邻关系矩阵,保持数据的局部相似性关系,最后利用聚类中心的低维流形嵌入和近邻关系矩阵对PFC模型进行结构化约束,并通过吉布斯采样优化模型参数,计算特征投影矩阵。该算法既利用了原始数据的局部近邻信息,又保持了数据的全局分布结构,能够有效提取无监督数据的判别性低维特征。
其他文献
学位
本文提出了在完全包交换的LASMAX无线数据网络中,在初期的单小区、固定或者低速移动用户站的环境下,LASMAX无线资源管理子系统结构设计方案,包括功能模块以及内部/外部接口。在L
反辐射导弹技术和隐身技术的迅速发展对战略和战术防御系统提出了严峻挑战,基于外辐射源的无源雷达系统由于具有潜在的隐蔽性和反隐身特性逐渐成为国际雷达界研究的热点。论
IP网QoS技术的研究是当前网络技术的一个热点问题.该文首先介绍了IETF为了满足互联网上各种业务对QoS的需求而提出的两种服务模型:集成模型和区分模型.分析了两种模型各自的
空时自适应处理(STAP)技术能够显著提高机载阵列雷达动目标检测性能,但全维STAP因运算复杂度高导致其实时处理困难,因此能够实现准最优处理的降维STAP算法是工程应用的关键。
SAR图像变化检测是通过定量和定性地分析同一地区不同时相的SAR图像,以确定地物变化特征的过程。该技术在灾害评估、环境监测、森林监测和战场态势分析等国民经济和国防建设
软件测试是软件开发的重要、必要部分,是通过找出缺陷和问题评估产品质量并间接改进产品质量的手段。软件测试的方法、流程及测试策略是软件测试过程设计中重要的组成部分。
本论文的项目背景正是从多媒体和SOC技术这两点的交叉出发,设计一块支持高清数字电视的多媒体解码芯片。芯片包括视频和音频两部分,视频采用H.264图像协议,音频支持AAC/MP3 协
基于画像的人脸识别是个人身份认证中的一项关键技术,它较基于照片的人脸识别难度更大。该技术在刑事案件侦破、安全保卫、犯罪嫌疑人搜捕等法律执行方面具有较大的实用价值