粗糙集中基于鲸鱼算法和模糊决策的特征选择方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xndrz1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会已经迈入了万物互联时代,大量终端的存在为这个社会产生了大量的信息与数据。在信息收集之初,大家并不完全清楚最终想要的是哪些数据,大而全地收集数据成为了一个较为稳妥地选择方案,也因此造成了最终的数据中包含了大量无用甚至垃圾的数据。数据的质量会对学习模型的性能产生重要的影响已经是行业内的一个普遍共识。大规模的数据也会提高模型的学习时间,降低学习效率。因此,对原始数据进行特征选择已经成为机器学习领域一个至关重要的预处理步骤。特征选择旨在选出一组区分能力强的特征子集,以达到降低数据维度,减少数据规模,提升后续学习模型学习效率的目的。粗糙集是一种强力的数学工具,极易于用于特征选择研究。本文主要的工作都在研究粗糙集的应用、改进和拓展,并将其用于特征选择。针对领域内目前仍存在的NP难问题、噪声问题和半监督数据问题,本文的主要研究工作和创新点如下:针对选择最小的约简子集所面临的NP难问题,使用粗糙集中依赖度的概念构造适应度函数并使用鲸鱼优化算法进行全局搜索。搜索过程中的鲸鱼群体在每次迭代中都根据适应度值高低被分为两个子群体,同时构造一个当前最优位置的随机替代点。普通子群体中的鲸鱼个体仍旧向着当前最优个体所在方位更新自己的位置,精英子群体中的鲸鱼个体则向着替代点所在方位更新自己的位置。这种群体划分机制可以避免算法过早收敛,提高算法的全局寻优能力。相关实验的结果表明,在大部分情况下该算法都能选择高性能的特征子集。针对数据中的噪声样本导致学习模型性能降低的问题,提出了一种结合多核与模糊决策的稳健模糊粗糙集模型并将之用于特征选择。模糊决策本质上是一种根据数据分布对样本标签重新划分的方法,可以初步消除样本误标记所造成的噪声产生的影响。基于此,重新定义了样本模糊决策的计算方式,减少了参数对结果的影响。考虑到数据分布多样性的特点,引入多核组合的方法来计算样本间的相似性,各核函数的权重由各核函数的先验分类精度决定。相关实验结果表明,在选择特定的多核组合算子时,算法的性能在大部分情况下优于对比算法。针对样本标签误标记和部分数据标签获取难度大的问题,给出了一种样本标签重定义的方法。该方法会根据样本的实际分布情况,分析出各样本最有可能属于的类别。为防止错误地修改了正常样本的标签,设置了两个筛选条件,以找出最有可能需要进行标签重计算的样本,还节省了计算时间。在噪声数据和半监督数据上的实验表明,结合了标签重定义与邻域粗糙集的特征选择方法在大部分情况下都具有更高的性能。
其他文献
填充墙作为框架结构中不承受外部荷载的非结构构件,主要起空间分隔与围护的作用。我国作为地震频发国,每次地震的发生都会造成大量的人员伤亡与房屋破坏。其中框架结构中填充墙的破坏最为严重,而填充墙的平面外破坏相较于平面内破坏具有更大威胁。为减少填充墙在地震中的破坏,设计了一榀带水平滑移层的单层框架填充墙试件,通过拟静力试验研究其平面内性能,结果表明水平滑移层的加入弱化了墙体的斜撑效应,耗散了大部分地震能量
功率分流型混合动力系统是专门为新能源汽车开发的混合动力系统,通过单个或者多个行星排,实现功率的分流和汇流,更多自由度地调节发动机和电机的工作状态,使系统具有更好的动
目的本课题观察双葛解酒方在治疗急性酒精中毒非昏迷期的疗效及安全性,探讨本病的中医病因病机,为急性酒精中毒的中医救治提供思路和方法。方法依据纳入标准选取2018年12月-2
随着手机移动智能终端的普及,为手机游戏行业的发展提供了技术空间,再加之当下人们生活时间的碎片化状态,为手机游戏行业提供需求市场。这两方面的实际情况给游戏研发行业提供了市场的延展空间。国内各项政策对游戏行业的管控与限制的力度不断增强,其行业内部的竞争态势激烈,市场需求对游戏产品的精准度要求越来越明确,用户对游戏产品的精准度和迭代速度的要求都有所提高。再放眼海外,从东南亚至欧美地区,海外游戏产品发行市
随着车联网的构建和互联网技术的广泛涉及,汽车已经不单是代步工具更是人工作生活中的重要部分。车载中控系统是人与车进行交流的媒介,也是车企和众多互联网公司进行合作以赢得差异化竞争的关键部分。但现阶段车载中控系统的信息交互模式仍然是相对固定的,停留在人主动适应汽车的状态,从真正意义上讲并未达到交流互动的目的,驾驶者实现熟练驾驶操作的过程中往往会因为紧张的状态和学习时间成本,造成驾驶体验不好,也增加了驾驶
收费站是提升高速公路系统通行效率的关键位置。电子不停车收费(Electronic Toll Collection,ETC)是提升收费站通行能力的有效措施,经过长时间的发展,ETC用户比例在不断增加,2019年出台的多项政策进一步加快了ETC全面普及的进程。ETC用户的快速增加使得ETC车道异常事件的不利影响逐渐凸显,因此本文旨在量化异常事件对收费站通行效率的影响,进而合理优化车道配置,降低社会效益
本文讨论了不依赖于时间的Navier-Stokes方程最优控制问题的数值解法,通过Q2-Q1混合有限元离散,将此类控制问题转化为一个大型稀疏的非对称鞍点问题。为有效求解此类病态的鞍
格奥尔格·毕希纳(Georg Büchner,1813-1837)是德国19世纪重要的现实主义作家、戏剧家,德国现代文学的先行者。在短暂的24岁生命中,毕希纳一共创作出四部文学作品,它们都在德国文学史上产生了重要的影响。其中,《沃伊采克》是毕希纳的未竟之作,是他留下的几个不同版本的手稿断片。这部戏剧是毕希纳根据社会真实事件改编而成,讲述了身处社会底层的士兵沃伊采克的悲剧命运。毕希纳在这部作品中探讨
社区公共空间作为城市居民日常生活的重要载体,在公共空间产生的活动与提供的多样功能常常被视作是真实城市居民生活的映射。然而随着城市的快速发展,城市社区人口密度的快速扩增,长期以来,城市社区公共空间的建设采用的模式化、套路化的设计方式,已无法满足当前居民的生活方式与精神需求,同时产生了基于年龄差异的公共空间的空间占据、时间使用时长等不公平现象,最终产生社区居民间矛盾。针对上述问题,论文以城市社区公共空
20世纪90年代以来,伴随着中国经济体制转轨和社会结构转型的加速,城市在剧烈变迁中出现了一系列新问题。社会阶层分化,贫富差距扩大,贫困群体作为城市弱势群体逐渐边缘化、集中化。成都市作为近年来发展最为迅速的城市之一,阶层分化、收入差距等问题日益凸显,旧城区、城中村和城市边缘区等典型的贫困聚居区都有出现。从发达国家治理路程来看,成都市正处于集中拆建贫困聚居区的第一阶段。解决城市贫困人口的集中化、边缘化