基于改进扩展弹性网络的多类别特征选择方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ericchenfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是统计模式识别中的一个基本步骤和重要任务,并被广泛的应用于图像处理、文本挖掘、计算神经学以及生物信息学等诸多领域。在这些实际应用中,研究对象的观测值(即样本)虽然含有大量的特征,但对于某个特定的识别任务来说,这些特征并非都是相关的有效特征,也同时存在冗余的或是与任务不相关的噪声特征。这些噪声严重影响分类精度。为解决这一问题,特征选择技术应运而生。特征选择旨在从样本的所有特征中将相关的有效特征挑选出来,同时将不相关的特征剔除。另一方面,特征选择也可以避免由于样本的特征数过多导致的维数灾难,降低模式识别的时间开销。样本的特征维数越高,特征选择的重要性也就越发突显出来。为了挑选出相关的、低冗余的更好的特征子集,研究者们提出了不同的优化方案。如最小冗余最大相关性特征选择(mRMR)方法,全局冗余最小化(GRM)方法,不相关LASSO(ULASSO)方法,等等9在前人研究的基础上,本文从一个新的角度提出了优化的特征选择方法,并提出了相应的有效算法。本文的主要研究内容有以下三部分:(1)弹性网络(EN)模型与常用的最小绝对收缩和选择算子(LASSO)相比,在选择相当数量的特征的情况下,EN模型的效果要优于LASSO。特别是在样本所含特征数远远大于样本数时,EN的效果比LASSO更令人满意。出于这种考虑,本文将特征与类别之间的相关性作为约束,以权重的形式融入EN模型中,提出了基于区分性弹性网络的二类别特征选择(TFS_DEN)方法。通过对回归系数加权的方式,在目标函数的优化过程中,使对应于与类别标签具有强相关性的特征的回归系数变大,反之则被压缩。这样一来,回归系数的区分性被放大,挑选出的特征与类别的相关性更强,同时有利于提高分类准确率。在这一部分选取两种相关性度量,并给出相应的4种不同形式的权重。对于TFS_DEN,在这一部分还给出了有效的迭代求解算法以及与算法相对应的收敛性证明。在多个二类数据集上的相关实验结果说明了 TFS_DEN的性能优于一些现有的特征选择方法。美中不足的是,TFS_DEN方法仅能处理只包含两类样本的特征选择问题。(2)本文进一步将TFS_DEN方法扩展到多类别的情况,使其适用于更多的实际应用问题,形成基于区分性扩展弹性网络的多类别特征选择(MFS__DEEN)方法。由于问题被扩展到多类别的情况,TFS_DEN中的权重形式不再适用。因此,针对MFS_DEEN给出了不同于TFS_DEN的4种权重形式,同时提出了不同于TFS_DEN的新的有效迭代求解算法,并给出了相应的收敛性证明。在多个多类别数据集上进行了相关实验,其结果验证了 MFS_DEEN的有效性。(3)作为MFS_DEEN方法的一种横向扩展,本文提出了一种基于自适应扩展弹性网络的多类别特征选择(NMFS_AEEN)方法。MFS_AEEN方法以另一种数据依赖的权重进行加权,并可以直接利用MFS_DEEN方法中的迭代算法求解。在多个二类别及多类别数据集上的实验结果证明了 MFS_AEEN方法也具有良好的特征选择性能。
其他文献
随着互联网的发展,搜索引擎已经成为人们快速搜索信息的重要工具,而关键字广告作为搜索引擎的重要经济基础之一,有效地满足了广告主的营销需要,同时也给搜索引擎提供商带来巨大的
在纺织品生产过程中,重要的内容就是质量控制与疵点检测部分。目前国内的织物疵点检测终究很久由工作人员对纺织品进行检测来完成的。因此存在检测速度低、误检率和漏检率高、
由于高校连年扩招,造成了在校生人数规模剧增,给高校的教学工作带来了许多影响教学质量的问题。教师在教学实施过程中往往积累了大量的数据,但目前对这些数据的处理还停留在初级
随着微电子技术、无线通信技术、计算技术以及嵌入式处理等技术的快速发展和日益成熟,新兴的具有无线通信和感知能力的无线传感器网络(Wireless Sensor Network,WSN)应运而生,得到
近几年来社区电子智能服务在中国有了突破性进展,有效地将现代信息技术和传统的社区服务紧密地融合在一起。而通过数据挖掘技术可以方便、快捷、直观的展现数据的深度应用,促进
中国民航的迅猛发展令世界瞩目,民航在国家综合交通运输体系中的比重也不断提升,对国家经济、社会发展和改革开放做出了新的更大贡献。但是,不断新建、扩建的机场和持续增长的航
近年来随着计算机科学技术和电子商务的快速发展,组合拍卖的应用前景越来越广泛,而组合拍卖的求解效率是组合拍卖的核心问题,因此求解效率的高低直接影响到组合拍卖在现实生活中
随着计算机技术的发展,在各种领域如计算机视觉、人脸识别、生物信息以及医学上都面临着高维数据的难题。高维数据中往往包含了冗余信息和噪声。数据降维是将高维数据投影至
本文以电子商务平台供应链云预研项目的研究开发为应用背景,对基于搜索框/资源池的云计算模型进行了研究,在分析当前集中式搜索引擎系统的基础上,总结了现有系统的优缺点,针对现有
学位