基于增量聚类和ReliefF的特征选择方法

来源 :西南大学 | 被引量 : 0次 | 上传用户:chenzy43111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到几千甚至几万维,大大降低了识别效率和识别正确率。特征选择作为模式识别中非常重要和关键的一个步骤,对分类决策而言,起着非常重要的作用,直接影响识别结果。本文在全面分析现有特征选择方法的基础上,重点研究了Relief特征选择方法。相对其它特征选择方法,Relief不管是时间代价还是对数据类型的限制上都有明显的优势。因此,选择Relief算法的改进算法ReliefF作为研究的出发点。ReliefF算法是一种有监督学习的特征选择方法,很大程度上依赖于类别标签。而以聚类为基本工具进行特征选择,不需要依赖类别标签,对数据类型没有约束,更适合于大规模数据集,能够适用于任何情况下的数据降维。将聚类和ReliefF方法结合起来,能在无类别标签的情况下,利用ReliefF方法实现对大规模数据集进行特征选择。为此,本文对增量聚类与ReliefF相结合的特征选择方法进行了较深入的研究。研究发现,增量聚类方法和ReliefF方法均存在一些不足,若简单地将这两种方法组合起来进行特征选择,这些问题并不能解决。在全面分析增量聚类方法和ReliefF方法存在的问题的基础上,针对增量聚类和ReliefF方法的不足,提出改进策略:(1)通过可调参数的设置,将聚类半径确定在一个初始范围内,由后期实验确定可调参数取值;引入最小距离原则确定样本对象归属;(2)引入信息熵理论,计算不同聚类数目时信息熵值,选择信息熵最小的值对应的聚类数目作为增量聚类的最终聚类数目;(3)提出一种解决混合属性冗余问题的方法,分别利用相关系数ρ和互信息方法来计算特征之间的相关度,找出相关度大的特征(即冗余特征),将之删除。在此基础上,提出了一种基于增量聚类和ReliefF的特征选择方法——ICB-ReliefF.在选择出的UCI数据集上,将本文提出的ICB-ReliefF方法与已有方法进行对比实验,利用Weka软件中的C4.5决策树分类算法进行分类。实验结果表明,本文方法ICB-ReliefF相对已有方法在分类正确率和特征子集大小这两个指标上有明显提高。
其他文献
Android应用软件具有事件驱动特性,主要通过GUI(图形用户界面)与用户进行交互。为了保证Android应用软件的可靠性和安全性,需要对其进行分析与检测,而对GUI进行遍历是其中的
随着Web应用的普及,Web应用测试在保证Web系统质量和可靠性方面发挥着重要的作用,由于Web应用具有的新特性,传统的软件测试方法不能直接用来对Web应用进行测试。在Web应用测
笛语识别就是通过模拟人类的听觉把汽车鸣笛的声音转变为文本形式或者人类能理解的语音。结合不断完善的语音识别技术和应用广泛的嵌入式技术,并随着无人驾驶技术的发展,具有
在工业设计领域,逆向工程技术得到广泛的应用和研究。三角网格由于其描述了点之间的拓扑关系,能产生一定的视觉效果,因而在逆向工程中得到广泛应用。但三角网格交互修改十分不便,若能把它转换成通用的CAD软件能接受的曲面实体模型,则会有更广泛的用途。特征线提取、脊线提取是三角网格模型转换为曲面实体模型过程中的重要一步。形状识别是逆向工程CAD建模中数据分块和曲面重建的一个重要过程。从三角网格模型中提取特征线
无线传感器网络中,现有数据收集方式多采用静态Sink的方案,易造成Sink周围的节点负载过重而过早死亡,导致网络分割,形成监测盲区;另一方面由于传感器节点的随机部署,易形成不
21世纪,物联网的发展越来越迅速,应用也越来越吸引人,获得了人们广泛的关注。人们普遍使用的手持设备,比如手机、平板电脑等,设备异构性差别很大,互相之间的设备协作也因此变
生物特征识别技术在当今世界中已经得到了广泛的应用,虹膜因其唯一性、稳定性,可采集性,非侵犯性等优点而逐步受到人们的重视,已经发展成为了主流的生物特征识别手段。它以其
随着互联网的迅速发展与普及,网络已经成为信息传播的主要渠道,人们可以方便地从网络上获取各种信息,但是,现有的信息检索系统基本都没有考虑用户的兴趣偏好,只是被动的、僵
进化算法是一类模拟自然界“优胜劣汰,适者生存”的全局寻优技术,它的特点是针对一组随机的候选个体进行复制、交换和变异等遗传操作,逐步迭代逼近最优解。20世纪60年代,一些
无线通信技术和计算机网络的迅猛发展,为无线Ad Hoc网络的产生奠定了基础。它是一个多跳的、临时的、对等的自治系统,它由一组带有无线收发信装置的移动节点组成。该网络具有