融合强化学习机制的不平衡数据集成分类算法研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:kxf2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,各行业数据的收集和处理变得越来越容易,而迅速整理和挖掘数据中隐含的信息,不仅能够有效提升各行业的智慧数据处理技术能力,还能够为相关行业的发展提供强有力的支撑。随着数据量的不断增加,数据的分布逐渐呈现出不平衡的趋势,相对于数据集中占比较多的样本,样本数量少的一类才是人们需要深入研究的重点。如在医学检测、垃圾邮件过滤、银行卡防欺诈等方面,数据分布的不平衡更是普遍存在,有效地解决这一问题能够及时发现并预见可能出现的风险,有着重要的科学研究意义和使用意义。现有的分类器在处理不平衡数据集时,其识别率往往不能达到理想水准。传统的分类模型通常会采用平衡数据集来加以训练,以期获得更高的分类精度,但是在处理不平衡数据集时,这种方法的效果往往不尽如人意。因此,本文首先通过分析不平衡数据集的数据分布规律提出一种基于边界信息融合聚类的混合采样方法。该方法首先定义了边界点概念,并据此对数据集中多数类样本的边界点进行了保留,然后对余下的多数类样本进行聚类欠采样,再对欠采样后得到的数据集使用Borderline-SMOTE方法过采样,以得到最终的数据集。通过将该采样方法与传统分类器相结合,在多个公开数据集上进行实验,结果显示,它能够有效地提升对不平衡数据的分类准确性。然后,根据强化学习中奖励函数以及累计奖励的思想,提出了融合强化学习机制的改进决策树算法。针对不平衡数据分类中遇到的少数类样本易被错分的问题,对决策树算法节点分裂属性的选择标准进行调整,使其在分裂过程中更加关注少数类样本,以提高少数类样本被正确分类的概率。通过与原始决策树算法进行对比实验,发现所提出的算法在召回率和G-mean指标上都有提升。最后,将改进后的决策树算法用作Adaboost算法的基分类器并与提出的混合采样方法相结合得到最终的算法。将该算法在多个公开数据集上开展试验,实验结果验证了所提算法的有效性。
其他文献
习近平总书记在党的二十大报告中指出要推进绿色发展,加快发展方式的绿色转型,积极推进碳达峰碳中和。随着绿色发展理念的深入人心,环境保护成为一项重要议题。在“双碳”目标的推动下,我国针对企业环境、社会责任和公司治理方面信息披露的法规日渐完善,《环境信息依法披露制度改革方案》《企业环境信息依法披露格式准则》等的发布,使得在践行绿色发展理念的同时也推动ESG在我国资本市场的发展。对于企业而言,从ESG(E
学位
随着数据技术的飞速发展,数据资源已成为推动经济转型和发展的重要动力。近年来随着智能移动终端普及、医疗管理的数字化,健康医疗数据也呈爆发式地增长,我们把目前所有健康医疗数据的聚合体称为医疗大数据。我国看到发展医疗大数据的战略价值,正加大力度号召各单位积极建设医疗大数据。但医疗大数据中包含有大量患者和从业者的个人隐私信息,容易遭受外部攻击或出现部分从业者从内部泄露并以此牟利,使得相关医院不愿意将自己信
学位
近年来,我国数字技术蓬勃发展,创造了数字经济这一全新的经济发展形态,在基础硬件、云计算和信息技术应用等领域涌现出大量的信息科技企业,有力促进了我国实体经济的数字化转型,促进了数字经济和实体经济深度融合。与此同时,数字经济也对参与市场经济竞争的企业在管理决策范式和价值创造流程中提出了更高层次的要求与挑战。在党的二十大报告中,习近平总书记强调:“要坚持将发展的重点放在实体经济上”。实体经济是一个国家的
学位
计算机技术的快速发展带来了复杂的信息,怎样从中获得实用信息是十分有待探索的,机器学习中的分类算法在其中起到了不可或缺的角色。传统的分类方法假定不同类别的样本数目和不同类别被错分的代价相差不大,然而在分类问题中往往会出现数据不平衡的情况,这时传统的分类方法就不适合对不平衡数据进行分类,因此对不平衡数据进行分类是一个很有现实意义的问题。欠采样和过采样都存在着一些缺点,比如前者没有考虑多数类中所蕴含的某
学位
在各大平台智能聊天机器人代替人工在线回复的背景下,人类从广义上来说已经进入了人工智能时代。尤其随着大规模深度神经网络学习模型的发展,聊天机器人背后的内容生成不再按照传统方式依靠模板匹配与检索,而是基于深度学习模型算法的实时生成方式。随着应用越来越广,效果越来越好,聊天机器人越来越受欢迎,使其成为了一个非常热点的人工智能的研究方向。心理学家基于荣格的心理类型研究理论提出:人类的心理理论研究可以通过能
学位
随着网络技术的不断发展,通信成为人们正常生活中提升效率的重要技术。但是,大数据时代数据的爆发式增长为恶意个人收集通信领域用户的隐私数据提供了机会,用户身份与数据的隐私问题逐渐暴露出来。非透明的中心化通信机制由于通常存在单点失效、隐私被窃取和易被黑客攻击的缺点,难以解决通信过程中的隐私安全问题。而区块链技术的不断发展,为解决通信过程中隐私安全问题提供了新思路。通过对传统通信模式与基于区块链技术的通信
学位
随着当今社会的迅速发展,数字化和信息化的程度越来越高,信息的安全与共享问题被越来越多的人所关注。区块链技术的快速发展,人们发现区块链技术具有去可信第三方的共信特性,区块链的数据对所有人公开,任何人都可以通过公开的接口查询数据,整个系统的信息高度透明,且数据拥有者(即用户)可以自己控制数据,而不是将数据交由不可信的第三方保管。于是人们利用区块链技术,在一定程度上解决了信息的安全共享问题。但是新的问题
学位
“十四五”规划纲要提出的推动“产业数字化”标注着数字化转型上升为国家层面的政策,体现了数字化转型政策地位更高。目前对企业数字化转型经济后果研究方兴未艾,基于行业间的关联性,企业的风吹草动会对审计行业产生一定程度的影响,企业战略也是审计师在制定审计决策时需要考虑的关键问题。因此,本文探究数字化转型与战略差异度的交互作用对审计师的审计投入产生的影响。本文选取2007-2020年沪深A股非金融类上市公司
学位
当前,我国居民财富分配差距显著,为了实现共同富裕的模式,国家不断出台财富三次分配的相关政策。目前,基于财富三次分配的研究中,国内专家学者多集中于对现有政策的理论研究。本文基于多智能体系统(Multi-Agent System,MAS)理论,利用多智能体技术模拟经济领域演化过程,分析财富三次分配的影响因子,能对即将出台的相关政策进行前瞻性分析,模拟仿真政策带来的影响作用,对于共同富裕模式的实现具有重
学位
随着科技的飞速进步,数据的产出量已经达到了史无前例的水平,而且这些数据可以被大量地收集、存储,因此,不同行业对于数据的处理需求也日益提升。在机器学习和数据挖掘领域,分类技术被广泛应用,它可以帮助我们快速、准确地识别出复杂的信息,而这些技术可以通过多种机器学习方法来实现。数据分类技术已经成为智能化处理的重要工具,它可以有效地帮助我们更好地识别和预测数据集上的各种类别,从而大大提高数据分析的工作效率和
学位