基于秩聚合和再平衡的类不平衡数据的特征选择

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:chinaoristand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类不平衡数据处理已成为机器学习与数据挖掘领域的研究热点与难点之一。特征选择是解决不平衡数据维度问题的常用手段,目的是尽可能地保留与少数类相关的特征以提高分类精度。不平衡数据结构的复杂性给后续的特征选择和分类带来了极大的困难,因此,研究类不平衡数据的特征选择以提高分类准确性是非常必要的。过滤法是特征选择最简单且常用的方法之一,使用单一的过滤法进行特征选择往往会使重要特征被遗漏。本文采用十种不同的过滤法对数据进行特征排序,分别为:t检验、Fisher得分、Hellinger距离、Relief算法、Relief F算法、几何平均、F测度、AUCROC、AUCPRC和R值。运用Kendall’s tau秩相关检验十种排序结果的不一致性,得出:不同过滤法的重要特征排序不尽相同,而且很难说一种过滤法总是优于另一种,即基于过滤法的特征选择具有不稳定性,而数据的失衡又致使这种不稳定性加剧。基于上述发现,我们提出秩聚合与再平衡的处理策略。秩聚合可以将多个不同列表拟合成一个最优列表,把最优列表作为特征选择和分类的最终依据。主要的研究内容和结果如下:一方面,本文利用不同类不平衡比和不同维度的模拟数据以及现实医学数据分析了秩聚合特征选择,结果表明,秩聚合算法可以很好的解决排序列表不一致问题,保证重要变量不被筛除。无论是平衡数据还是不平衡数据分类,秩聚合特征选择后的分类结果优于使用单一过滤法。另一方面,为消除数据的不平衡性,采用七种过采样技术使得不平衡数据达到平衡,分别为:SMOTE算法、ADASYN算法、ANS算法、BLSMOTE算法、DBSMOTE算法、SLS以及RSLS算法。从数据结构方面,对八个数据集进行秩聚合特征选择分类处理,结果表明,数据维度、不平衡比和变量间的相关性与秩聚合特征选择分类效果成反比的趋势,秩聚合特征选择使不平衡数据分类精度有所提高。提出二次秩聚合方法,对十种过滤法的秩聚合排序列表进行二次秩聚合处理,结果表明,二次秩聚合比一次秩聚合和再平衡秩聚合分类效果好,二次秩聚合可以弱化不平衡比对于分类的影响,使得分类精度有所提高。此外,利用医学不平衡数据集,进行再平衡秩聚合及二次秩聚合特征选择处理,分类精度均有提高。
其他文献
加入世贸组织以来,中国对外贸易发展迅速,逐渐成为货物贸易世界第一大国。与此同时,一方面巨大的能源消费为经济和贸易发展提供动力支持,另一方面,能源供需矛盾,不合理的能源消费结构,低水平的能源利用效率等能源问题又反过来成为制约经济和贸易进一步发展的主要因素。因此,研究对外贸易开放对能源消费增长的影响机制具有理论和实际意义。本文选用2006-2015期间中国285个地级及以上城市数据,运用分解分析方法将
随着中国互联网行业的快速崛起,出于对便捷生活的需求,各种智能化设备获得了空前发展,与此同时也导致无线通信所依赖的频带出现了资源紧张的问题。由于互联网应用的多样化,对现有的通信速率提出了新的挑战。截止到2019年全国大部分地区都开始了第五代移动通信(5th-Generation,5G)的商用测试,但是5G只能解决当前通信遇到的部分难题,仍需通过下一代通信技术的不断研究寻找通信发展的新方向,这对未来的
随着生活水平的提高,城市汽车购买量越来越多,堵车和空气污染在现代都市生活已是司空见惯,这就迫切的要求我们采用更加高效环保的交通工具,双轮自平衡车具有轻便灵活,速度快,环保节能的优点,而且它也很好的解决了人们的近距离出行问题,同时也具有很高的娱乐性,在生活中越来越受到人们的青睐。但是目前市场上的的双轮自平衡车应用还有一定的局限性,首先它对道路环境的要求较高,在一些复杂路况的道路环境中,还不能看见它的
随着遥感技术的快速发展,各类遥感卫星传回的遥感图像分辨率越来越高。因遥感图像携带信息越来越多,故从遥感图像中识别典型目标成为可能。其中,机场区域作为重要的大型人造目标,对其识别一直是遥感图像识别领域重要的研究方向之一。机场区域面积较大,因其独特的功能,使得机场区域远离城市中心。为了准确从大场景遥感图像中识别机场区域,本文以遥感图像预处理方法为基础,依据机场区域纹理特征,采用改进最大类间方差法对遥感
近年来,随着人造卫星的发射,遥感技术开始应用于气象观测,地理测绘,城市规划,资源环境监测等多个领域。通过遥感技术,人们可以解译遥感图像从而获取图像中的信息加以利用。但是由于受地理环境影响,太阳光线在传播过程中被山川树木或者城市中的高大建筑物等地物遮挡从而形成阴影。阴影的存在有利有弊,一方面,我们可以利用阴影对城市中建筑物进行估算高度或者形状等操作;另一方面,阴影的存在会导致遥感图像中阴影区域的信息
对于科研工作者而言,专业领域文献是他们在日常学术研究过程中使用最多、最频繁的资料。在科研大数据时代,面对亿量级的文献资源,科研工作者很容易陷入海量文献的泥潭中。知识图谱作为知识经济下的新兴技术,可以从语义角度结构化地描述文本中的实体以及实体之间的关联。因此,将知识图谱应用至科研学术领域,构建专业领域文献知识图谱,描述知识骨干网络,这对科研工作者具有很大的价值。本文设计了专业领域文献知识图谱的整体构
高校图书馆是学校的文献信息资源中心,是为人才培养和科学研究提供服务的学术性机构,是高校文化建设和信息化建设的重要阵地。当前,在把思想政治工作贯穿教育教学全过程,实现全员、全过程和全方位育人的背景下,深入地挖掘高校图书馆所蕴含的思想政治教育资源,主动地发挥和释放其思想政治教育功能,对于构建“大思政”育人格局,提升高校思想政治工作的针对性和实效性具有重要的意义。高校图书馆是图书馆的重要类型之一,不仅具
在土地变化领域,土地变化及其驱动因素的作用过程具有明显的尺度相关性,某一尺度上揭示的土地利用变化驱动力在其他尺度可能并不产生作用,对土地利用变化空间多尺度驱动力的作用规律及机理进行研究,有助于理解土地利用格局变化的过程和机制,从而更加准确地把握区域土地利用变化规律,以实现土地资源的合理、可持续利用。本文选取滇中城市群、昆明市和嵩明县组成上下贯通的三级研究区,以2009年和2015年的1:10000
随着人工智能的迅速发展,深度学习在医学领域的应用越来越广泛,甚至改变了部分研究的发展局面,在此背景下,国家提出推进中医现代化、信息化、智能化的目标。虽然目前已有一些人工智能和中医结合的应用研究,但对中医智能处方模型的研究非常少,仅有的一项研究最终效果不理想。然而智能处方模型研究是中医智能化目标中非常重要的任务,因此,本研究针对中医智能处方模型的构建、多种处方模型的效果比较、模型语义特征提取及中医古
在游戏产业蓬勃发展的大背景下,受研发成本、捞金思维、流量焦虑三种因素影响,游戏营销乱象横生。同时,依靠众多合作伙伴构建生态系统、共同进行价值创造正在成为企业发展的主流趋势。论文第一次将价值共创理论引入游戏品牌营销领域,在媒介融合与智能传媒的大背景下对游戏品牌价值共创的一般模式展开深入研究,并根据研究发现对游戏品牌营销实践提出针对性建议。论文首先对品牌价值、价值共创、游戏营销三个领域国内外研究现状进