基于特征分类能力互补性和归一化互信息的特征选择方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:shunbe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是数据挖掘、机器学习的一个基本问题。过去十几年来,许多度量手段被用来度量特征的重要性,众多研究成果相继诞生。其中,互信息作为一种非线性、无量纲的度量标准被广泛应用到特征选择技术中。  总体来说,基于互信息的特征选择方法的三个核心问题是:(1)特征与类别的依赖关系;(2)特征与特征的相关性;(3)前面二者的权重比例。目前,许多学者通过设置不同的参数提出了一系列方法。  针对以上三个核心问题,本文首先将多类问题转化为多个两类问题,对于每个两类问题,采用归一化的互信息定义特征分类能力,以此为基础给出特征分类能力互补性的概念,改进传统基于互信息的特征选择方法的准则函数,提出基于特征分类能力互补性的特征选择方法。实验表明,基于该方法所选取特征构造的三种分类器的分类准确率,在大多数情况下占优。  其次,本文针对微阵列数据小样本的特点,提出一种基于混淆矩阵的自适应的互信息估算方法,它避免了多层迭代地划分样本平面,仅由样本的重叠情况估算概率,从而计算互信息。实验结果表明,该方法具有较低计算复杂度,为基于互信息的特征选择方法提高了计算效率。  最后,结合新的互信息估算方法,本文提出基于特征分类能力互补性的特征子集选择方法。它将特征分类能力定义为条件互信息,得到特征分类能力矩阵,以此表征特征与类别的依赖关系。考虑特征间的相关性,用联合熵表示特征间的互补性,用归一化的互信息表示特征冗余性,并用二者之差作为进一步候选特征的标准。新方法将特征选择过程分为两个步骤进行,避免了特征相关性与冗余性两项度量不均的问题。为验证改进方法的优劣,在四个机器学习标准数据集和七个基因表达数据上,与四个经典的基于互信息的特征选择方法的对比实验中,新方法构造的三个分类器的分类准确率大多数情况下占优。另外,达到同等准确率时,新方法选择的特征数目一般少于其他方法,表明新方法选择的特征不仅具有强类别相关性,而且特征间互补性高,存在冗余较少。
其他文献
本文以河北西柏坡发电有限责任公司物资管理信息系统开发为对象,从实际工作出发,在分析目前西电公司物资管理系统中存在的问题的基础上,结合管理信息系统开发的基本原理和方
软件测试是保证软件可靠性的重要手段,在软件开发周期中起着非常重要的作用。而测试数据的生成是实现软件测试自动化的关键,这一技术的实现可以很大程度的减少用于软件开发的时
计算技术和网络技术的飞速发展,极大地促进了基于网络环境的科学应用研究。许多应用领域对计算能力的要求越来越高,单台计算机已很难满足计算需求。由多处理机构建的高性能计
住宅小区进出汽车牌照自动识别系统是实现住宅小区安全保卫系统智能化的重要环节,它是以数字图像处理、模式识别、计算机视觉等技术为基础的智能识别系统,利用每辆汽车都有唯一
从AC97到最近的HD(Higll Definition,高保真)音频技术,Intel实现了PC板载集成声卡规范的一次质的提升,在HD音频技术上集成和实现各种音频算法(包括最新杜比环绕技术)将使用户对
图形用户界面GUI(Graphical User Interface),作为人机交互技术的重要内容,提供了丰富的图形图像信息、直观的表达方式与用户交互。使用GUI系统作为人机界面的软件系统简洁、
现代社会学习、工作与生活的各方面越来越依赖于通信网络,特别是通信网络的可靠运行。因此,网络故障的检测、定位与恢复问题显得更加紧迫和突出。尤其是现有网络地址面临枯竭,IP
微博以其高效的传播效率和近似即时的信息获取速度获得广大用户的喜爱。由于微博消息可通过多种智能移动终端发布,所以多数热点话题在微博平台上能近乎实时的体现出来。微博平
随着科技的发展和社会工业化的进步,步进电机在机械控制领域得到了越来越广泛的使用。但是在常规的电机控制方式下,步进电机会有精度过低,低频震动等固有缺陷,限制了其在工业领域的应用。为了克服步进电机上述不足,提高步进电机运行的稳定性,人们提出了步进电机的细分控制技术。该技术通过对步进电机励磁绕组中电流的精确控制,使步进电机内部的合成磁场为均匀的圆型旋转磁场,实现步进电机步距角的细分;采用该技术可以在不改
随着互联网在国内的广泛普及与发展,网络用户不断增加,原有的IP地址资源显得越来越稀少,无法满足今后网络继续发展的需要,因此,下一代互联网(基于IPv6)的研究和产业化被提上