基于马尔科夫毯代表集的特征选择技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ALIMHL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着收集数据的系统和数据结构复杂化的发展,我们需要改进数据预处理的算法,以便利用高质量的数据获得有效的预测模型.但是,在实际应用中,经常会因为数据维数的增加,导致特征子集选取不当,进而对分类结果产生较大的影响.其中利用马尔科夫毯选取特征子集面临着两大问题:首先,基于概率描述从有向图中寻找类属性的配偶节点是NP难的;其次,当数据集不满足忠实分布时,目标节点的马尔科夫毯个数会随着特征维数的增加呈指数型增加.本文基于马尔科夫毯代表集和次最优特征子集,分别针对不同的搜索算法对特征选择进行研究.首先,针对Alpha搜索算法逐个地选择特征,本文提出了基于马尔科夫毯代表集的Alpha算法(MBRAS).该算法首先考虑相关性,基于最大信息系数度量每个特征与类属性的相关度,得到与类属性高相关的父子节点,由此转化思想提出类属性的马尔科夫毯代表集.随后,该算法建立了特征与子集冗余度分析的衡量标准,通过阈值的设立,排除与类属性低相关且与代表集高相关的非主导特征,从而生成次最优特征子集减小特征搜索空间.最后,该算法结合特征对类属性的相关性和特征对分类结果的影响提出了单个特征添加进预测模型的惩罚函数,并利用Alpha搜索算法选出最优特征子集.本文采用UCI和ASU中的多个数据集验证算法的分类性能.结果显示,相对于经典的特征选择算法而言,MBRAS具有更高的分类精度,而且大大降低了数据集的维数.即在减小信息遗漏情况下,以较少的特征获得较高的分类准确率.其次,在许多实际问题中,由于数据特征维数成千上万的增加以及特征间的依赖性,设立惩罚函数对单个特征进行搜索评价具有一定的局限性,且对于最后选取的特征个数具有灵活性.为了提高特征选择算法处理高维数据的基准,本文提出了基于马尔科夫毯代表集的粒子群算法(MBRPSO).首先基于输入集中特征的相关分析和代表集中特征的冗余分析对原始空间预处理;然后采用粒子群优化算法初始化粒子,得到多组特征子集,并通过新适应度函数的提出,计算出粒子的个体最优值和群体最优值,从而不断迭代更新得到最优子集.实验表明,MBRPSO算法与其它先进的特征选择算法和经典的马尔科夫毯过滤器相比,选出的特征个数最少且分类误差较低.最后,总体概括本文研究的内容,并提出以后的发展方向以及需要改进的地方.
其他文献
随着现代社会的发展,复杂公共事务问题的解决涉及众多政府、社会部门的共同治理,政府、市场和社会各部门的治理冲突和边界使得政府治理行为面临重大挑战和压力,协同治理是大势所趋。青岛小港湾的船舶治理是典型的复杂性公共事务协同治理。目前青岛小港湾兼有综合港口和旅游港口的特点,港口内的船舶涉及渔钓船、渔船、报废船、载客帆船、工作船、客船、游艇、5米以下的小艇、学校实习船等船舶。其中鱼钓船和渔船涉及到渔业管理部
二维材料由于其独特的结构特征和优异的性能,已成为凝聚态物理、材料、化学等领域的研究热点。其中石墨烯、硅烯是最常见的第IV主族二维材料,有着优异的电学性质,在电子、光电子、催化、能量存储和转换等领域有广泛的潜在应用前景。在本文中,我们首先在绪论中介绍了第IV主族二维材料,包括石墨烯、硅烯及其氧化物的研究进展和存在的问题。其次在第二章介绍了相关的理论基础和计算方法。然后在第三、四章分别介绍了一种理论预
随着新技术与新场景的出现,网络流量规模化增长。大流量冲击对服务器性能提出更严格的要求,设计并实现有效策略抵御流量冲击,为差异化流量提供不同的服务质量(Quality of Service,QoS)显得尤为重要。服务质量的提升可以从两方面考虑,一方面从数据转发角度考虑:首先结合实际业务场景对流量分类,然后根据路由器端所设计的优化策略对分类后流量转发。另一方面从服务器角度考虑:通过增加服务器带宽,扩展
自然界中,随机表面随处可见,相干光波经过随机介质或随机表面散射后便会形成随机光场。从激光器问世后对散斑现象的研究更加深入和全面,例如不同形状孔径散斑的相位奇异,通过
《萨班斯法案》颁布后,美国开始实施整合审计,要求财务报表审计和内部控制审计由同一家会计师事务所整合实施,以提高审计效率。我国于2010年和2011年先后发布《企业内部控制审计指引》、《企业内部控制审计指引实施意见》、《企业内部控制审计工作底稿编制指南》等文件,效仿美国的做法,开始推行整合审计。那么,如何更有效地开展整合审计就成为一个值得研究的重要问题。本文采用案例研究方法,运用风险导向审计理论和业
行人检测技术是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予准确定位,该技术与行人跟踪、行人识别等技术相结合,可应用于智能视频监控、人体行为分析、智能
目标跟踪是计算机视觉的一个经典和重要的研究方向,在各行各业有着广泛的应用。它的主要任务是在给定第一帧目标物体的情况下,在后续帧中连续跟踪目标的位置。目标跟踪是一个颇具挑战性的研究课题,因为它需要应对遮挡、形变和光照变化等诸多困难因素,因此多年来一直都受到了学者的广泛关注。近些年来,随着深度学习技术的发展,全卷积的孪生网络在目标跟踪领域展现出了巨大的潜力,特别是以SiamFC为代表的跟踪算法可以很好
随着智能设备的爆炸式发展和视频流等低延迟应用的普及,当前的无线网络面临着前所未有的数据流量突发。编码缓存技术在非流量高峰期间将部分数据缓存在用户终端,在流量高峰期间通过编码多播的方式满足多个用户的需求,从而极大地减少了传输时延和网络拥塞,成为下一代无线网络主要的技术趋势。雾计算凭借分布式架构和接近终端用户的优势,成为未来无线网络一个有前途的架构。本文主要研究编码缓存技术在雾计算网络中的应用,旨在进
“时间银行”模式是实现社区互助养老的一大突破,尤其适合于低收入人群,但由于一些原因目前未能普遍推广。本文针对国内外现有时间银行的不足之处,设计开发了一款具有Web,APP以及WeChat三个客户端的时间银行系统。本文首先设计了时间银行的模型,介绍了时间银行系统的功能和特点。在此基础上,为了保障时间银行应用系统的可持续性,构建了一套基于层次分析法和模糊综合评价的服务评价体系:先确定时间银行服务质量评
铍材具有诸多优异性能,特别适合于用作光学材料。铍材被广泛应用于诸多领域,可极大提升设备性能。在我国传统的铍材等静压工艺研究探索中,通常使用反复实验试错法,该方法会浪费大量的制造成本和研究时间。数值模拟的方法可以有效减少传统试错法的浪费问题,此外采用数值模拟的方法可以有效预测等静压后大尺寸铍材的变形趋势。本文将根据现有的大尺寸铍材生产工艺,采用Shima屈服准则描述铍粉的塑性,对大尺寸铍材冷、热等静