基于OLS特征排序和相关度聚类的特征选择算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhaoguopu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,给高维数据集建立一个鲁棒训练模型是非常重要的。其中最大的问题是如何进行数据降维。数据降维分为两种形式:特征选择和特征提取。特征选择是在原有的特征集中直接选择其中一部分特征,用这个特征子集来代替原数据集合。特征萃取是将高维数据空间映射到一个低维数据空间,用映射后的结果来代替原数据集合。特征选择在有大量冗余数据的情况下已经被证明比特征提取的效果更好,不但可以提高算法效率,还可以简化计算过程,让结果具有更好的可读性。特征选择由特征排序和子集选择两个部分组成。特征排序按照一定的规则将特征对输出结果的贡献度大小排序,同时滤除掉贡献度很小达不到阈值的特征。子集选择在于选取一个最优的特征子集。一个好的特征子集所包含的特征要对输出的结果贡献尽量大,同时特征之间的相关度尽量小。基于以上的原则,本文把特征选择的问题转换为两个部分:基于相似度的特征聚类;特征贡献度排序。基于相似度的聚类是用来将特征分割为一些子集,在这些子集特征的相似度尽量高,同时在子集之间特征的相似度尽量低。特征排序是按照特征对结果的贡献度大小将特征进行排序。本文提出了一种使用SVM(支持向量机)感度来度量每个特征的贡献大小的方法。但是这种方法没有考虑到每个特征之间的独立性,特征的贡献是相互关联的。针对于这种缺点,本文提出了一种基于正交最小二乘法的特征排序方法,将输入特征空间映射到一个由一组正交基底组成的特征空间,利用特征的正交性来衡量每个特征对输出贡献的独立性。本文同时也提出了另外一种基于简化的正交最小二乘法的特征排序方法来克服正交最小二乘法在数据维度很高的时候时间复杂度高的问题。本文还使用了一种集成的特征选择方法来集成不同的特征选择方法来得到一个更加鲁棒的特征子集。在本文的模型中,本文选取每个类中特征排序最高的特征来代表这个类的所有特征作为特征子集中的特征元素。这样得到的特征子集就能符合上文所提出的好的特征子集的特性:一个好的特征子集所包含的特征要对输出的结果贡献尽量大,同时特征之间相似度要尽量小。特征排序保证了所选特征对输出的贡献尽量大,基于相似度的聚类保证了特征之间的相似度尽量小。经过试验表明,本文所提出的特征选择模型以及特征排序的方法能够得到很好的效果。既能极大的降低输入空间的维度,减少计算量,提高计算效率;又能很好的保持原特征集的特性,在有大量冗余特征的数据集中还能提高分类准确度,能够取得非常鲁棒的特征子集。
其他文献
自我国发布大力发展装配式建筑及开展质量提升的指导意见以来,全国各大房地产开发商积极响应并纷纷推出对于建筑行业的管理方法、施工技术创新的相关举措。传统建筑生产方式资源浪费严重,质量缺陷问题多,造成的环境污染严重,因此建造水平的提升势在必行。在2018年国内出现了集成多项新型施工工艺,追求安全共享(Safe&share)、科技创新(Sci-tech)、绿色可持续(Green)、优质高效(Fin
集成学习和半监督学习是机器学习领域中两个重要的研究方向。半监督学习主要研究的是如何利用无标签样本提高分类器的学习效果,集成学习是属于监督学习领域内的方法,它研究的
共价有机框架(Covalent Organic Framework,COF)因其多孔性、孔隙可调性、高比表面积、高稳定性等特点,正受到越来越多的关注,在气体吸附、能量存储、催化、光电应用等领域表
高等学校资产资源短缺是我国现阶段高等教育发展面临的重要挑战。对于学校而言,怎么在项目之间进行有效的资源配置,使有限的资源发挥最大的作用是一个亟待解决的问题。高校资
无线地下传感器网络是以无线电波传播进行信息交换作为通信方式的传感器网络,它的大部分传感器节点位于地下土壤中,以土壤作为传播媒介。作为无线传感器网络的新领域,无线地
区域经济的交流与合作已发展成为一类较为常见的经济活动,区域之间的物流、资金流、信息流、商流等持续流动,使物流活动频率越来越高。在区域之间的相互竞争中,区域物流成为
近年来,建模仿真技术由于模拟真实世界的能力受到了越来越多的关注。随着现实系统的复杂度和规模的提高,仿真系统需要更高的计算能力。并行离散事件仿真(Parallel Discrete E
近年来为了配合经济高速发展的步伐,我国越来越重视多式联运在国内的发展,国务院印发的《物流业发展中长期规划(2014-2020年)》中多次提到有关多式联运的相关内容;自2013年起,习近平总书记也提出了“一带一路”倡议,更进一步提升了多式联运在国内物流行业发展中的地位;与此同时,国家还在《关于进一步鼓励开展多式联运工作的通知》等文件中提出全新要求:2020年多式联运货运量必须超过30亿吨,运量规模占
随着互联网的飞速发展,网络上蕴含的多语言信息也呈指数级增长。单语种所获得的检索结果有时难以满足用户信息检索的需求。查询翻译作为跨语信息检索的基础技术,具有重要的研
两轮轮式机器人是通过两个主动轮驱动机器人运动和工作的。它具有一系列的优秀特性:自重轻、承载大、行走速度快、工作效率高等。因为有这些突出的优点,两轮轮式机器人被广泛