基于改进抽样策略的不平衡数据分类方法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:xianfaxianfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集在当今社会生活中大量存在,如肺癌病人诊断数据、信用评估数据、网络攻击识别数据等。针对不平衡数据集的分类叫做不平衡分类,传统的分类器以整体分类精度为学习目标,故其在对不平衡数据集进行分类时会更关注多数类样本的特征而忽略少数类样本的信息,导致少数类样本很难被识别出来,但少数类样本往往具有更重要的价值。现有的对不平衡数据分类的解决方法主要可分为数据、算法、两者结合这三个层面。其中数据层面上的主要方式是通过更改不同类别样本的个数,来平衡数据集中各类别信息,算法层面上的主要方式则是通过增加少数类样本的权重,使分类器对少数类样本的重视程度得到提高。SMOTE算法是数据层面中的一种过采样方法,主要是在距离相近的少数类样本之间进行线性插值得到新的少数类样本,从而平衡原始数据集。该方法有效解决了随机过采样方法带来的过拟合问题,但仍存在不能区别性地选择少数类样本、生成新样本时忽略近邻中多数类样本信息等不足。因此本文在此基础上提出一种新的过采样方法Re W-SMOTE。相比SMOTE算法,本文提出的方法能够实现有区别性地选择少数类样本并在生成样本时能够利用近邻中多数类样本的信息,提升了生成的少数类样本的质量和多样性。在来自UCI和KEEL的多个真实不平衡数据集上进行实验,使用AUC、F1、Recall、TNR、Precision、G-Mean六个指标作为评价标准,并与其他重采样方法进行对比,通过实验结果表明Re W-SMOTE方法能有效地解决存在在不平衡数据集中的少数类样本分类困难问题,且该方法对少数类样本的分类相比SMOTE方法和Borderline-SMOTE方法更具准确性和稳定性。
其他文献
在科学技术发展极快的当下,高新技术一再改变着人类社会生活的点点滴滴,在互联网和大数据的共同作用下,人工智能技术也在社会生活中开始广泛应用。虽然目前的人工智能技术仍属于弱人工智能,但其对社会生活各个方面的改变也可以是巨大的,在这其中,人工智能自动驾驶是社会所大为期待的技术之一。人工智能自动驾驶是道路交通未来发展的必然方向,这一技术将根本改变现有的道路交通模式,同时也能有效地降低道路交通事故率、增强人
随着时代的发展,人们发现数学早已在不知不觉中,全方位的渗透到了我们的生活之中。而高中数学教材就是教师传授数学知识理论,学生认识和学习数学知识的重要的载体。学生通过精心设计的数学教科书,可以更加直观的体会到数学与社会、数学与科学的息息相关。2003年出台的普通高中课程方案和课程标准实验稿来进行课程目标的确定,一直指导着各省份地区,数学考试大纲的制定,数学教学内容的确定,数学教学教材的编写等等。普通高
改革开放以来我国经济快速发展,但也面临严峻的环境污染问题,经济发展和环境保护之间的矛盾日益突出。在此背景下,实现经济高质量发展最有效的做法是进行绿色技术创新。然而仅依靠市场力量无法使污染得到控制,技术创新的外部性也导致其缺乏市场激励。为此,政府需要设计合理的环境规制政策,激励企业减少污染排放,提高创新投入力度,实现绿色生产。本文在国内外文献的基础上,发现研究不足后确定研究目的和方向。梳理我国环境规
随着我国志愿服务事业的不断发展与进步,社区志愿者群体已成为社区建设过程中的重要组成力量,他们在统筹社区资源、服务社区居民、提高公民意识、弘扬社区特有文化与精神等方面发挥着日益重要的作用。近年来,关于社区志愿者参与志愿服务的工作满意度研究也逐渐增多,而影响社区志愿者志愿服务工作满意度的重要因素有其参与动机和所处组织环境的支持水平。同时,志愿者组织环境的总体支持水平对志愿者的工作投入、工作效能、持续性
随着近年来我国经济的高速增长,资本市场的迅速扩张和融资渠道的不断健全,投资市场中对赌协议使用成为企业并购重组、实现转型和多元化发展的重要工具。对赌协议作为一种估值调整机制,是一种能有效保障投资双方利益的投资模式,可以解决企业在发展过程中存在的融资问题。但融资市场的不稳定性以及对赌协议的泛滥使用,导致很多并购案承担不了风险以失败告终。正确有效地运用对赌协议,能降低投资中各类风险,在并购中充分发挥正面
2020年新冠疫情引发了国内外股市大幅度震荡,兆新能源、瑞幸咖啡等多家企业因财务造假导致了股价崩盘。上市公司股价崩盘严重损害了投资者的利益,打击了投资者对于市场的自信心,不利于资本市场的稳健发展。因此研究股价崩盘风险具有十分重要的意义。经过国内外学者大量研究表明,股价崩盘的主要成因是管理层隐瞒企业的负面消息,但是目前关于股价崩盘的研究大多局限于正式制度层面,而以文化为首要代表的非正式制度对企业管理
负性情绪是一种与正性情绪相对的、使个体感到焦虑、抑郁、愤怒、恐惧等消极的情绪体验;几乎所有的负性情绪都能使个体产生不良反应和不适应感,重大灾难事件如新冠肺炎疫情更容易使民众出现负性情绪。目前,我国志愿服务已成为公民参与社会公益事业、社会治理的重要途径;志愿者数量及其组织不断增加,在社会救援、社区治理等众多社会领域发挥了不可忽略的作用;自疫情发生以来,社区志愿者积极主动参与疫情防控,使我国抗疫防疫取
企业价值最大化是企业追求的经营目标,但在外部环境市场复杂多样的情况下,同样要求着企业遵守经济效益的可持续发展,而这之中,企业面临的一大难点是如何在经济利润最大化与社会效益最大化之间取得平衡。ESG投资指在进行投资决策时充分考量环境(environment)、社会责任(social responsibility)和公司治理(corporate governance)这几方面的影响因素。在新发展格局下
出口技术复杂度是衡量一个国家或地区出口竞争力的指标,越高的出口技术复杂度代表了更强的出口竞争力。中国制造业近年来在国际贸易中取得了比较显著的成效,但这仅局限于“出口量”上,中国制造业水平仍处于世界产业链的低端,面对复杂多变的国际形势,中国制造业或陷入“比较优势陷阱”,可能处于或一直处于世界价值链的低端环节,因此,迫切需要提升中国制造业的出口技术复杂度,避免在国际竞争中被边缘化的风险。近年来,加强知
随着社会工作在我国的蓬勃发展,越来越多的人了解并加入到社会工作行业,然而大量的社会工作专业人才正不断流失,这严重阻碍了我国社会工作行业的整体发展。由于当前国内外有关劳动关系管理的研究主要集中于教师、医护人员、酒店员工等服务领域,在社会工作领域的研究还较少。因此,本文将劳动关系管理引入社会工作领域,探究社工服务机构劳动关系管理与员工离职倾向之间的关系,以期强化社工服务机构劳动关系管理,提升社工服务机