基于邻域容差粗糙集的不完备信息系统的特征选择

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:jianting520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集是一种十分重要的数据分析工具,它能够很好的处理不精确的、不一致的和有缺失的知识库。由于经典的粗糙集是严格的定义在等价关系的基础上,只能用来处理离散的符号型数据,当处理连续型数据时就需要对其进行相应的离散化操作,但是离散化处理有可能会造成重要信息的丢失并且不同的离散化方法也会对约简的结果产生不同的影响。而现实生活中又由于数据测量的误差、科学技术的限制以及对数据理解的误差等原因,使得获取的大量数据往往是不完备的、有缺失的,这就极大地限制了经典粗糙集对现实数据的发展方向。因此,如何有效的找出潜藏在知识库中的有价值的信息已成为当今大数据时代研究的重点课题。针对上面出现的问题,一系列的粗糙集扩展模型相继被提出。比如:基于容差关系、相似关系的粗糙集扩展模型能够很好地处理不完备的数据集,邻域粗糙集模型可以用来直接处理连续型数据集,从而避免了因对数据进行离散化而可能造成的重要信息的丢失。本文以邻域容差粗糙集模型为基础,做了以下几点研究:首先,在邻域容差粗糙集扩展模型的基础上重新定义了一个新的邻域容差粗糙熵函数,并根据该熵函数给出了邻域容差条件熵和属性重要度的定义,为后面的特征选择算法奠定了基础。其次,给出了一种计算邻域容差关系中阈值大小的方法。本文分析了固定阈值和单一阈值的弊端,结合标准差的意义,提出了新的阈值计算方法,并用阈值集合来代替单一阈值,进而使分类结果更精确。另外,基于邻域容差条件熵给出了一个新的特征选择算法(SFGFFSNNTC)。在算法中,我们利用邻域容差关系定义了关系矩阵,进而节约了算法的运行时间。另外,利用邻域容差条件熵定义了属性重要度,从而避免了因缺失值的存在而造成的属性依赖度不准确的缺陷。最后,利用UCI数据库的数据对本文特征选择算法进行检验,证明了这种改进算法的有效性。
其他文献
将河口坝划分为单一河口坝和叠置河口坝2种类型,建立了不同厚度、不同渗透率、不同夹层频率、不同注采条件等共计18个概念模型,并数值模拟至模型极限含水。通过对数值模拟结
本文介绍了广州东莞地区0.9M分布式屋顶光伏并网发电项目的实例工程设计方案,通过光伏发电原理的介绍,并结合东莞地区的地理和气象条件分析,对屋顶光伏发电系统构成、项目设
本文结合企业举办培训和参加培训的经验教训,从领导重视培训,注重培训的针对性和实效性,将学员层次详细细分采用不同的教学模式,合理安排时间和地点,完善培训机制等方面,探讨
建立了电感耦合等离子体质谱法(ICP-MS)测定铀化合物中的锰、镍、铜、铝和镁等5个杂质元素的方法。将样品和铀化合物标准物质消解后,通过配置一系列不同铀含量的工作曲线,将
埋地钢质管道的腐蚀与防护状态受多种因素的综合影响.文章通过多因子综合分析与评价方法的探讨,借助干以往的管道腐蚀案例,寻找各种因素的权重系数.以确定单个因索对总体性质
在各级政府以及机构面临新的舆论生态的情况下,政务微博应运而生。微博“粉丝”关系政务微博的生存发展,特别是影响力的提升。如何增加“粉丝”量尤其是真实、质优的“粉丝”
传统出版向数字出版的转型升级,是一个系统工程,需要进行顶层系统设计。出版机构在进行转型升级顶层设计时,需要把握的核心问题有:认识数字出版时代出版机构的根本任务,面临的最大
品德学科教师应注重以生为本,让孩子学会合作。让分工合作,各司其职;顺学而导,实践探究;方式多变,呵护兴趣;有效评价,促进发展。四大系统。助学生在合作学习中健康快乐地成长。
随着市场经济的加速发展,保护消费者权益成为越来越受关注的问题之一。由于中国在这方面起步较晚,所以应汲取西方发达国家的经验,进一步完善我国消费者权益保护的政策体系。
随着大数据时代的到来,企业越来越重视数据的价值,收集数据,建立自己的数据仓库,通过对数据的处理获得有效的决策支持,为企业带来可观的利益。但随着数据量的不断增加,数据的