数值型数据的粗糙集模型与特征选择研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:gyivan0513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论诞生于二十世纪八十年代,是一种重要的新型数据处理工具,尤其在不确定性和不完备性数据处理方面表现出了显著的性能。粗糙集理论以等价关系为核心,通过数据的粒化来粗糙逼近研究目标,从而对模糊不确定性的知识达到了清晰的认识,其中信息系统的特征选择是粗糙集理论的重要应用。邻域粗糙集和模糊粗糙集是整个粗糙集理论体系中两个重要的分支,同时这两种模型也是处理数值型数据的强有力工具,数值型数据是一种常见的数据类型,因此基于这两种模型的特征选择具有重要的研究意义。在邻域粗糙集模型中,基于完备型数据的特征选择研究未考虑数据的聚集分布,从而对特征选择的结果带来一定的误差;基于不完备型数据的特征选择大多是基于容差关系构建,在描述的数据相似性方面存在一定的缺陷。在模糊粗糙集模型中,基于完备型数据的特征选择未考虑数据的类与类之间的间隔问题,因此不能够选择出很好的特征结果;基于不完备型数据的特征选择目前相关研究较少,因此模糊粗糙集对不完备型数据的研究是一块空缺。针对以上存在的问题,本文将依次对其进行改进,并提出对应的特征选择算法,本文的主要工作内容如下:(1)针对邻域粗糙集模型关于数值型完备信息系统特征选择存在的缺陷,本文通过方差来评估数据的聚集分布,然后提出一种自适应邻域粒化,将自适应邻域粒化结合模糊熵度量,提出自适应邻域模糊熵,并用于数值型信息系统的属性重要度评估,构造出一种启发式特征选择算法。最后通过仿真实验证明在数值型完备信息系统中,所提出的特征选择算法比邻域粗糙集的其他特征选择算法具有更高的特征选择性能。(2)针对邻域粗糙集模型关于数值型不完备信息系统特征选择存在的缺陷,本文将量化容差关系与邻域关系进行结合,提出邻域量化容差关系,然后在邻域量化容差关系的基础上提出条件熵模型,本文称之为邻域量化容差条件熵,并作为数值型不完备信息系统的属性重要度评估,进一步地构造出一种启发式特征选择算法。最后通过仿真实验证明在数值型不完备信息系统中,所提出的特征选择算法比邻域粗糙集的其他特征选择算法具有更高的特征选择性能。(3)针对模糊粗糙集模型关于数值型完备信息系统特征选择存在的缺陷,本文引入大间隔学习来评估属性下类与类之间的分类间隔,并根据间隔学习得到的属性权重结果来构造模糊粗糙集模型下的模糊粒化,本文称之为大间隔模糊粒化。然后在大间隔模糊粒化的结果上定义依赖度和知识粒度两种度量,并将它们结合起来用于信息系统中属性重要度的评估,从而构造出一种启发式特征选择算法。最后通过仿真实验证明了在数值型完备信息系统中,所提出的特征选择算法比模糊粗糙集的其他特征选择算法具有更高的特征选择性能。(4)模糊粗糙集模型在数值型不完备信息系统中的特征选择研究较少,本文在模糊粗糙集模型中引入容差关系,提出一种基于模糊容差关系的模糊粗糙集模型,然后在该模型下定义模糊信息增益率,并将模糊信息增益率用于信息系统中属性重要度的评估,同时给出了一种启发式特征选择算法。最后通过仿真实验证明了在数值型不完备信息系统中,所提出的特征选择算法比其他相关的特征选择算法具有更高的特征选择性能。因此在本文中将提出4种特征选择算法,分别为基于邻域粗糙集模型的数值型完备信息系统和不完备信息系统的特征选择算法和基于模糊粗糙集模型的数值型完备信息系统和不完备信息系统的特征选择算法,在本文的最后将通过仿真实验来对比所提出的算法之间的性能。
其他文献
过去的十年见证了二维(Two-dimensional,2D)材料领域的巨大投入以及其在基础研究和技术开发上取得的显著成果。其中垂直堆叠构成的二维异质结由于两种材料拥有不同的禁带宽度、
高中历史教学是高中教学的重要组成部分。学生通过对历史知识的学习,可以增加对历史事件的认知,了解历史发展的潮流,增强对历史认识程度,从而在评判历史事件的过程中树立正确
为克服评价过程中人为因素的影响,运用粗糙集理论构建了大学教师教学能力评价指标体系。采用行为事件访谈法获取大学教师能力特征描述,然后通过整理分析调查结果提炼得到34个
无论是在国内还是国外,项目管理的学科、技术和应用的普及与发展已经进入了一个飞速发展的时代,信息技术(InformationTechnology,简称IT)的发展又将IT项目管理推向了全新的应
本文从北京人民广播电台文艺广播评书节目录制引入"小剧场"形式的全新尝试出发,通过对比今昔的广播评书节目特点、分析广播节目与小剧场融合的利弊、阐述节目录制新形式对听
社会的发展、科技的进步,为金融业的发展和进步奠定了基础。在社会发展的大环境里,由于金融企业的不断增长和金融业务的不断创新和扩张,特别是我国加入世贸以来,为我国金融业
本文针对小秦岭金矿田大湖钼金矿矿床地质、地球化学特征进行了系统的分析。矿区浅部为石英脉型金矿体,向深部延伸出现石英脉型钼矿体,F5断层是大湖矿区内金、钼矿主要的含矿
目的:观察壮医经筋疗法联合颈椎牵引治疗椎动脉型颈椎病的临床效果。方法:选取2017年4月~2018年12月我科收治的62例椎动脉型颈椎病患者作为研究对象,经电脑盲选法分为两组,各
<正>企业在发展到一定的规模之后,为了提高管理效率,一般都会将原先的组织当中的各个职能按照其专业分工不同,设立不同的部门,通常被称为业务部门和职能部门。业务部门主要从
目的 了解足月妊娠妇女凝血功能多项指标的临床意义。方法 采用美国产贝克曼全自动血凝仪 (ACL -90 0 0型 )检测 1 50例足月妊娠妇女与 1 0 0例健康非孕妇女凝血酶原时间 (