基于信息粒化的特征选择算法研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:lvlaoban0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择作为数据预处理的关键手段,是数据挖掘、模式识别和机器学习等领域的重要研究课题之一。它是指在原始数据中删除大量无关和冗余的特征,找到一组包含原始特征空间的全部或大部分分类信息的特征子集的过程。对于高维数据,借鉴表征整体的思想,将数据集由一个大信息粒细化为多个可有效表征其整体的小信息粒,有助于从多层次、多视觉分析数据。因此,本文利用信息粒化的表征机制,将其运用于特征选择中,并构造了一系列的基于信息粒化的特征选择模型。本文首先介绍特征选择问题的研究现状,重点讨论了邻域粒化,大间隔和局部子空间模型。然后,针对数据中冗余和无关特征的消除问题,以粒化为基础,分别从样本粒化、特征粒化以及样本特征双重粒化三个角度,展开一系列的研究来解决不同的数据分类预测问题,本文主要的研究成果有:(1)从样本粒化角度出发,结合特征本身具有质量这一情况,提出了基于特征质量的特征选择算法。该算法根据信息熵和大间隔分别定义了特征质量和最近邻,并利用该近邻实现了样本的粒化。实验从特征子集的紧凑性,分类精度,以及分类精度随着特征数目的变化情况这三方面对模型进行了验证,结果表明基于特征质量可以选择一组有效的特征子集。(2)从样本粒化角度出发,采用邻域关系,提出了基于最大近邻粗糙逼近的特征选择算法MNNRS。该算法以邻域粗糙集的特征选择算法NRS为框架,利用大间隔定义了最大近邻来粒化样本,并修正了正域的计算方法。MNNRS算法保留了NRS算法的优点,且有效降低了计算复杂性,提高了算法的分类性能。(3)从特征粒化角度出发,针对多标记数据集的高维性和标记与特征之间存在的类属关系,提出了基于局部子空间的多标记特征选择算法。该算法以局部子空间模型为基础,结合信息熵理论,鉴别了多标记中对标记集合相对次要,但却不可遗漏的特征。实验表明该算法能有效降低计算复杂性,提高分类性能,增强选择策略的灵活性。(4)从样本粒化和特征粒化角度出发,针对高维小样本数据存在高维性和易导致过拟合的问题,提出了一种启发式的局部随机特征选择方法。该算法利用局部子空间模型来粒化特征,结合样本的邻域粒化,以提高分类模型的分类精度,降低计算代价,并在一定程度上解决了过拟合问题。
其他文献
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中
学位
MEMS是将微电子技术与机械工程融合到一起的一种工业技术,在近年来得到了越来越广泛的应用,在工业、信息和通信、航空航天、航海、医疗和生物工程、农业、环境和家庭服务等领
学位
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子与信息处理平台的中间环节,因此中文分词的处
随着信息技术的飞快发展,信息的安全问题正在成为研究的热点。目前关于计算机设备的信息安全研究还主要集中在软件层面,虽然达到了比较好的效果,但没有从本质上解决安全问题
学位
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,有效检索这些海量信息以获得感兴趣的部分已经成为人们迫切需要的服务。在实
学位
近年来,复杂网络中社区结构的发现及社会关系知识的挖掘,已经成为数据挖掘领域的研究热点之一。电子邮件系统中的邮件通信网络是一种较简单的社会网络,其社区划分问题本质上
传统学术论文作为记录、传递、累积、创新、交流人类科技成果的载体和工具一直伴随着学术界的成长。但随着科学技术的迅速发展以及Internet的出现传统科技学术期刊的出版慢慢
无线传感器网络是由布置在检测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统。现已广泛应用于军事、环境监测和现代化农业等方面,
辩论是社会日常生活、工作中广泛存在的一种重要群体活动,基于Web的辩论支持系统是目前群体决策支持系统领域研究的重点。辩论支持系统以计算机为媒介,主要用来解决对抗性强
组合分类方法是机器学习领域逐渐发展起来的用于提高弱分类器准确性的有效方法,被认为是十几年来研究的最好的学习算法之一。大量的理论和实验研究表明:与单个分类模型相比,组