基于不平衡采样的分类预测模型研究

来源 :上海财经大学 | 被引量 : 1次 | 上传用户:liongliong601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪社会进入了数据时代,人类收集、储存、传输、处理数据的能力取得了飞速提升,人类社会积累了大量数据,亟需能有效地对数据进行分析利用的计算机算法,机器学习顺应了数据时代的这个迫切需求,机器学习领域因此取得了巨大的发展、受到了广泛的关注。在计算机科学的分支科学领域中,无论是图形学、多媒体,还是网络通信、软件通信,乃至体系结构、芯片设计,机器学习已成为最重要的技术进步源泉之一。数据分类作为一种基础的数据处理方法,已经广泛应用于数据的智能化处理。传统机器学习中的分类方法通常假设数据类别分布均衡且错分代价相等,然而,现实中的数据通常具有不平衡性,即某一类别的样本数量少于其他类别的样本数量。当使用传统的分类模型处理不平衡数据时,由于少数类样本的数量占比较少,被多数类样本掩盖,传统的分类预测模型无法精准识别少数类样本。不平衡数据会导致传统的分类预测模型在测试集上的表现较差,因此如何处理不平衡数据是建立高效分类预测模型的关键。随着科学技术的发展,不少学者提出了很多解决不平衡性的方法,较为常见的有欠采样、过采样、采样组合和采样集成等。但至今未有确定的结论说明哪种处理方式更有利于建立高效的分类预测模型,因此大多数文献都不考虑如何控制不平衡数据,本文将探讨各种不平衡处理方式在不同的不平衡数据上具有的优劣势。本文聚焦于系统地讨论各种不平衡处理方式的适用性,通过对比在多个具有代表性的数据集上的结果以突出一般性。本文选取了多个具有典型不平衡性的数据集,按照不同不平衡比例本文总共选取了8个数据集,它们的不平衡比例范围从极端不平衡(约1:129)到接近平衡(约1:1.2)。在不平衡处理方式方面,本文选取了欠采样和过采样中具有代表性且常用算法,过采样方法中选取了SMOTE算法以及采样组合中的Tomek Link Removal+SMOTE算法和过采样集成中的SMOTEBOOST,欠采样方法中选取了Tomek Link Removal算法、随机欠采样算法以及欠采样集成中的RUSBoost算法;在分类预测模型方面,本文选取的模型覆盖了集成模型与非集成模型两大类且具有代表性,模型包括逻辑回归模型、随机森林模型与Light GBM模型。本文在不同种类模型上探讨各种采样方法的适用性,将经过6种采样方法与不采用采样方法处理后的数据集训练上述三种模型,选用稳定性指标AUC、F1值来对比模型的性能。通过本文设计的实验总结发现,过采样方法或者基于过采样的组合或集成方法更适用于极端不平衡数据的处理,而当不平衡比例大于1:19小于1:2时,欠采样或欠采样集成的表现更优。当数据的不平衡比例接近1:1时,各类采样方法较原始数据建模提升的效果并不显著。本文的实验结果为现实世界中的不平衡数据分类问题提供了新的方向,具有一定的现实意义。
其他文献
“三全育人”可实现思政教育全覆盖,是将思政教育质量最优化、切实推动学生全面发展的有效措施。当前,高校思政教育“三全育人”中存在全员育人尚未形成协作效应、全过程育人无法有效衔接、全方位育人联动性不足等问题。对此,高校应构建“有机协同”联动体系,推进全员育人;落实“一体贯通”育人体系,推进全过程育人;打造“多维融合”服务机制,促进全方位育人,全面提升高校思政教育质量。
期刊
松花粉多糖及酯化多糖具有良好的免疫活性,对炎症因子的调节具有重要作用。本实验室前期研究证实,松花粉多糖及其酯化物在免疫水平上对小鼠溃疡性结肠炎有治疗作用,推测松花粉多糖及酯化多糖对免疫因子的调节是否与保护肠上皮细胞屏障有关,此外大量研究发现程序性坏死与炎症又有着密不可分的联系。本实验运用了前期实验室提取分离纯化及酯化多糖的方法,在已摸索好结肠炎小鼠的建模方法基础上,重点探究了松花粉多糖及酯化多糖调
学位
随着计算机算力、深度学习的快速发展,深度学习在图像、语音、机器翻译等领域取得了飞跃性的进展。训练一个好的深度学习模型往往需要巨大的样本量。然而在实际情况中,大量有标注数据获取的成本是很大的,在某些领域如医疗、军事等,大量有标注数据是无法获得的。与之相反的是,无标注数据往往是容易获取的,因此在这种背景下,深度学习与半监督学习的结合成为当前热门的研究方向。在此之前,由于传统监督学习中维数灾难问题与有标
学位
随着社会生活的发展和国际交流的增加,翻译需求随之提升,各种日趋成熟的机器翻译软件相继涌现。机器翻译不仅提升了翻译速度,节约了成本,也帮助人们更好地进行语言之间的互译与信息交流。尽管如此,机器翻译仍存在一些固有弊端。机器翻译软件逐句翻译文本,在处理由多个句子构成的篇章信息时无法将语境考虑在内。在情景语境方面,机器翻译会导致文本在语场、语式、语旨上产生问题。相比之下,人工翻译虽然速度较慢,但其译文精准
学位
种子大小是作物驯化过程中选择的重要农艺性状之一,也是影响作物产量的关键因素。随着世界人口数量的增长,人们对粮食的需求逐渐增大,进一步提高作物产量成为农业研究的主要目标。花生(Arachis hypogaea L.)是世界范围内重要的油料作物和经济作物,其栽培种为异源四倍体(AABB),是由单一或少数几次A基因组和B基因组的二倍体野生花生自然杂交后加倍形成的。近年来,花生野生祖先种和栽培种全基因组测
学位
股票市场是金融市场中一个十分重要的组成部分,股票价格的高低波动不仅是股票市场的运行基础,同时也会直接影响到投资者的投资利益。投资者在进行股票投资的时候,通常会根据宏观经济指标以及公司财务指标来进行决策。在股市交易中,股价数据随时都在发生变化,而且这种股价的变化往往也会对投资者的行为产生影响。相较于其它财务指标,股票本身价格的变动是实时的、迅速的,有些投资者对于这种实时变动的数据的关注可能更甚于每季
学位
<正>保密工作具有鲜明的系统性、整体性特征,任何层级、任何领域、任何环节出了问题都会“牵一发而动全身”,对国家秘密安全造成难以弥补的重大损失。作为国家安全和利益的“神经末梢”,基层保密工作一旦出现“木桶效应”,就会对整体工作造成不可逆转的损害。因此,做好基层保密工作必须绷紧保密之弦,时时谨记保密之重,刻刻警惕泄密之危,认真分析基层保密工作的短板弱项,下好防范先手棋,打好工作主动仗。
期刊
在这场抗击冠状病毒的持久战中,沟通与合作,尤其是预防措施的交流,具有重要意义。面对全球疫情的发展态势及其对人类生命健康安全等方面的影响,我们能从当中吸取何种经验和教训,如何将疫情的影响控制在合理范围内,如何战胜疫情。这也是笔者选择TED访谈《世界可以从中国应对冠状病毒中学到什么》作为本次模拟口译实践材料的主要原因。然后在UMEER框架(理解、记忆、表达、应急)的指导下,对本次口译实践的录音进行检查
学位
本篇翻译实践报告是以英国作家托马斯·威廉姆斯的著作《维京不列颠》(Viking Britain)节选内容为翻译材料所展开的。《维京不列颠》内含大量的历史和地理知识,本次实践有助于了解维京时期的历史和背景知识,提升译者的翻译能力。本次翻译实践要求译者结合历史文本的特点,最大程度将原文的文学色彩和历史文化传达给读者,从而达到文化交流的目的。误译是指翻译过程中在思想或在内容上背离原文的错误翻译。我国著名
学位
本报告是关于计算机行业历史丛书《IBM传》汉译实践中所运用的翻译策略模因的案例分析报告。本书分为四大部分,共20章节,本次实践中我选取第十四章的内容,约一万五千字。该书的体裁属于纪实文学,叙述了IBM公司发展历程以及相关历史事件。翻译模因论由切斯特曼所提出,该理论是在道金斯模因论基础上发展而来。切斯特曼最早将生物进化领域的模因论运用于翻译领域,试图以此构建一个系统规范的翻译理论框架。翻译模因论框架
学位