【摘 要】
:
进入了互联网时代,海量数据潜藏的价值也越来越巨大,同时也面临着从海量数据中剔除不相关,冗余特征的难度也进一步提高了。特征选择算法作为一种有效的数据处理的技术,已经在当今社会中扮演着越来越重要的角色。特征选择算法的选用一般考虑一下几个因素:分类器性能,能否去除无关特征,能否去除冗余特征以及数据集的规模,但是如果仅仅使用某种特定的算法进行特征选择,往往会只追求单一的因素,例如采用Wrapper模型,可
论文部分内容阅读
进入了互联网时代,海量数据潜藏的价值也越来越巨大,同时也面临着从海量数据中剔除不相关,冗余特征的难度也进一步提高了。特征选择算法作为一种有效的数据处理的技术,已经在当今社会中扮演着越来越重要的角色。特征选择算法的选用一般考虑一下几个因素:分类器性能,能否去除无关特征,能否去除冗余特征以及数据集的规模,但是如果仅仅使用某种特定的算法进行特征选择,往往会只追求单一的因素,例如采用Wrapper模型,可以显著的提高学习算法的性能,使用Relief系列算法可以去除不相关的特征等等。因此为了尽可能多的兼顾以上的几个因素,将不同选择算法的优点结合起来使用,提高算法的性能,使得特征选择算法在数据领域做出更多的贡献。本文也是根据此问题进行研究,提出融合的特征选择算法,并对特定算法进行改进。本文将最大信息系数和改进的和声算法相结合,提出一种新的两阶段特征选择方法MIC-MHS。MIC-MHS算法在第一阶段利用最大信息系数理论知识剔除不相关特征,并根据第一阶段信息分配每个特征的被选概率,由于初步精简子集中会存在冗余特征,所以需要进一步进行特征子集的搜索;在第二阶段根据特征选中概率初始化和声算法的种群,为和声搜索算法提供启发信息,并在基本和声算法的基础上进行改进,使得特征选择概率随迭代次数动态调整,新的和声根据特征选择概率而产生,并且在和声算法中将特征的相关性和特征子集维度作为目标函数。在UCI数据集上的实验表明,该算法可以获得尽量小的子集,并且可以获得较高的分类准确率。为了使本文提出的算法MIC-MHS得到更广泛的应用,本文实现了一个特征选择算法系统,该系统使用springboot框架,Mybatis框架作为数据持久层,前端页面使用的是Bootstrap框架和Thymeleaf模板引擎,通过这个系统设定参数,运行各种特征选择算法并进行结果对比展示。本文创新点如下:(1)在和声算法初始化种群过程中提出一种新的初始化方法,在第一阶段采用最大信息系数度量特征与类别间的相关度,作用不仅是剔除无关特征,还是为第二阶段和声算法提供先验知识;(2)在第二阶段和声搜索算法中,在生成新个体的过程中,保留最优个体,并且以PAR的概率对选中的个体进行微调,由于相关度小的特征组成的特征子集可能比全部是相关度大的特征组成的子集使得分类器准确率高,所以为了搜索潜在的特征子集,微调过程中采用对特征的选中概率进行微调的策略;(3)在设计和声算法的适应度函数时,不仅考虑了特征的相关性、特征子集维度,也考虑到了特征间的冗余度。
其他文献
在汽车销售行业中,顾客资源是销售业绩中重要的组成部分。而如何去甄别潜在顾客,如何收集潜在目标客户的基本资料是汽车销售的关键所在。随着计算机视觉技术的高速发展,人脸检测、人脸跟踪、人脸识别技术被广泛应用于门禁、监控、智慧门店等各个领域。在无需人工干扰的前提下,如何利用计算机视觉方法,获取客户来店频次、停留时间、停留区域等购买意向信息,从而对顾客进行精准的产品介绍与服务,达到潜在客户的识别和分析,这对
公司章程限制股权转让条款的效力认定之难,突出表现在股份有限公司是否就股份转让享有自治权、公司章程能够在多大程度上限制股权转让、初始章程与后续章程是否对限制股权转让条款的效力产生影响等问题上。解决这些问题,仍应立足我国现有法律体系,不宜对法律条文作过度解释,在维护公司治理基础的同时注重兼顾各方利益,一方面,既然法律未规定非上市股份有限公司享有限制股份转让的自治权,为统一法院处理该案件的适用标准,避免
中国人民政治协商会议是我国重要政治制度之一,是我国社会主义民主的重要表现形式。提交提案是政协委员执行委员职务,代表界别人民群众参与管理经济、文化、社会等国家事务的
费迪南德·霍德勒是瑞士19世纪的杰出画家,同时也是新艺术及现代绘画艺术的先锋之一,他的作品融合了写实主义、自然主义、象征主义、理想主义及表现主义等多种风格。在传统艺术的熏陶下,霍德勒通过不断探索,发展出了新的艺术面貌和艺术理念——平行主义理论,这对于欧洲的现代绘画尤其是青年风格绘画与表现主义绘画有着不可估量的影响。霍德勒的一生是探索的一生,他在各种流派中驻足,去探寻能够表达他的情感与意识形态的绘画
在日常生活中,超疏水表面应用广泛。为提高棉织物的应用性,本文利用点击化学原理,研究了4种制备超疏水棉织物的方法,对棉织物进行超疏水整理,获得具有耐久性的超疏水棉织物。
随着时代发展,先进的科学技术不断涌现,教育领域被这股科技潮流所影响,正走在相互融合的道路上,越来越多的将科技应用到教育领域。强国必先强教,强教必先强师,是国家发展的战
随着现代导航技术的快速发展,导航系统的种类也越来越多元化,北斗卫星导航系统(BDS)是我国自主研制的全球导航系统,其提供的导航服务具有低成本、高精度等特点,越来越多的应用将围绕其进行展开,但是它的导航精度容易受周围环境因素的影响。而捷联式惯性导航系统(SINS)具有自主性强、信息完备、隐蔽性好等优点,故将SINS与BDS两者组合,这样可以弥补单一导航系统存在的不足,汰劣留良,得到更加精确可靠的定位
20世纪以来,世界各国尤其是以美国为代表的发达国家加速了技术的研发与革新,这改善了人们的生活质量、提升了人们的生活水平,对人类的生活与行为观念带来了颠覆性影响。然而,当技术及其延伸的功利性、效用性理念成为各行各业发展水平的衡量标准时,重效用、轻德性就引发了一系列高技能不道德现象,这促使人们对技术观进行伦理审视。本文将美国技术哲学代表杜威作为研究对象,将其技术观的伦理意蕴作为研究核心,以消解当代技术
随着水下隐身和声呐技术的需求牵引,水声材料的重要发展趋势是向宽带低频方向发展,但在低频段测量中,声波多途效应是影响水声材料测量时测量结果准确性的主要原因。因此,在水
钢铝双金属通过固相复合而成的钢铝复合材料,是一种较为典型的能够综合两种组元金属优良性能的金属复合材料。利用累积叠轧法使钢铝板带层状复合,不仅能通过反复施加的强大轧