自表达属性选择研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:airbike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据通常含有噪音以及冗余。特别是,数据的高属性维度不仅会增加储存空间,而且属性维数在达到某一临界值后,特定数据挖掘算法的性能反而下降,即所谓的“维度灾难”。另一方面,由于资源所限等原因数据的类标签在实际应用中很难获取,因此,无监督的属性约简通过降低无标签数据的维度以解决上述问题,在数据挖掘领域具有重要意义。现有的属性约简方法可分为子空间学习和属性选择。子空间学习比属性选择更高效,但属性选择方法得到的结果更具有可解释性。本文结合子空间学习和属性选择思想提出两种无监督属性选择方法,即从输入的高维数据中选取有意义的属性(也就是说去除属性的冗余和噪音),使得输出的低维数据既能提升数据的学习效果,又具有可解释性。本文具体的内容和创新点为:(1)基于样本自表达方法的成功运用,本文利用属性自表达能力,提出了一种简单而且有效的无监督属性选择框架一基于稀疏学习的鲁棒自表达属性选择算法(SRFS算法)。具体来说,SRFS算法首先采用包含属性自表达的损失函数,将数据每个属性用其他属性线性表示来取得自表达系数矩阵;然后结合稀疏学习的理论(即用系数矩阵的l2,1-范数作为稀疏正则化项)取得稀疏的系数矩阵。在优化所得的目标函数时,稀疏正则化因子导致重要的属性对应的自表达系数值,相对于冗余属性或者不相关属性的值要大,以此区别属性的重要性从而达到属性选择的目的。SRFS算法利用属性自表达的方法,使得每个属性都能被全体属性很好的表现出来,不重要的属性或噪音冗余属性在自表达过程中被赋予很小的权重或零权重。在真实数据的模拟实验中,使用支持向量机(SVM)作为属性选择的评价方法进行分类,分别作用于被SRFS方法和其他属性约简算法处理过的数据,结果表明SRFS优于其他对比算法。(2)传统的属性选择方法通常不考虑属性间的关系,如:数据的局部结构或整体结构。而噪声或离群点会增加数据矩阵秩,基于以上事实,本文结合低秩约束、流形学习、超图理论和属性自表达在同一个框架下进行无监督属性选择,即提出了“基于超图的属性自表达无监督低秩属性选择算法”(SHLFS算法)。具体来说,SHLFS算法首先扩展上述属性自表达理论,即将各个属性用其他属性来表示,然后嵌入一个低秩约束项来去除噪音和离群点的影响。此外,鉴于超图(Hypergraph)能比一般图捕获更复杂的关系,SHLFS算法使用一个超图正则化因子来考虑数据的高阶关系和局部结构,且使用l2,1-范数正则化实现系数矩阵的稀疏性。本文进一步证明了所用的低秩约束导致SHLFS算法具有子空间学习的效果。最终,SHLFS算法既考虑了全局的数据结构(通过低秩约束)又考虑了局部数据结构(通过超图正则化),而且在进行属性选择的同时进行了子空间学习,使得得到的属性选择模型既具有可解释性且性能优异。由于比上一方法使用了更强的约束,且考虑了数据间的关系,SHLFS算法比之前的模型更健壮。在实验部分,使用SVM分类和k-means聚类两种评价方法,在多类和二类数据集上进行实验,经多个评价指标验证,SHLFS方法比对比属性约简方法具有更好的效果。本论文主要针对高维数据的特点,设计新的属性选择方法。具体地说,本文创新的使用属性自表达来实现无监督属性选择,另一方面使用超图模型和低秩约束表示数据之间的高阶关系,并结合稀疏学习理论给每个属性赋予不同的权重以判别属性的重要性。为保证设计方法的有效性,模拟实验部分在多个公开数据集上进行,对比算法包括近几年流行的算法和领域经典算法,使用分类和聚类作为评价方法,分类准确率(ACC)和标准化互信息(NMI)等多个评价指标。实验结果显示,本文提出的方法均获得最优的效果。后续的工作拟探索半监督学习和深度学习框架设计新的属性选择方法。
其他文献
结构光三维重建技术属于一种非接触主动测量技术,具有低成本、高精度、大视场、实时性好和抗干扰能力强等特点,在工业自动化测量、机器人导航、大规模复杂三维场景重建、医学
随着计算机技术和电子商务系统的不断发展,灵活的界面设计技术在网站建设中应用得越来越广泛。传统的基于JSP的电子商务系统存在页面显示和业务逻辑强耦合的情况,造成系统开
盲源分离又称为盲分离,是在不需要太多的源信号和信道先验信息的情况下,仅根据观测到的混合输出信号,分离出各输入源信号的过程,是信号处理领域的一个前沿问题,广泛应用于图
为满足用户移动通信需求,第三代合作伙伴计划3GPP(Third GenerationPartnership Project)组织提出了长期演进计划LTE(Long Term Evolution),以实现3G到4G的演进。本文围绕LTE系统性
近二十年间,随着计算机相关技术尤其是图形学技术的发展,计算机图形学产生了巨大的变革,三维图形学在各领域的应用也日趋广泛。与此同时计算机图形硬件也遵从着摩尔定律飞速发展
数据挖掘是从海量数据中发现蕴含其中的有用信息和知识的过程,应用广泛。关联规则分析作为数据挖掘的主要功能之一得到了广泛应用,对关联规则算法的深入研究具有很高的理论价
随着无线通信、嵌入式系统、分布式信息处理以及微电子等技术的快速发展,使得具有信息感知、信息处理和无线网络通信等能力的传感器节点以及由这些传感器节点构成的传感网得到
软件的高质量、高可靠性是系统开发和维护工作的一个不可或缺的重要方面,重复代码(也称为克隆代码)检测则是保证软件的高质量和高可靠性的一项重要任务。在软件系统中,重复代码的
近年来随着互联网技术的普及与飞速发展,电子商务以及政务、军工等领域也都得到跨越式发展。政府、企业和各种组织普遍构建适合自己的信道来传递公开或秘密的信息。互联网这一
随着大数据时代的到来,数据的存储安全成为了人们越来越关心的问题。而人们对于将自己的数据存储到云端的安全方面的考虑也阻碍着云存储的进一步发展。秘密共享方案在数据安全