【摘 要】
:
小样本问题是指研究如何从少量的样本中去学习。小样本的信息间隔大,提供的可用信息少,这样少的样本集合无法完全揭示群体的整体特征。如今的大数据时代,小样本问题依然存在,如在医学领域的癌症研究中,由于基因数据获取技术要求高、成本高、涉及病人隐私等原因,导致可供研究的样本较为有限,从而很难进行有效研究。本文分别基于EPSO-VSG框架与WGAN生成大量虚拟样本,以填补小样本之间的信息缺失,从而达到提高小样
论文部分内容阅读
小样本问题是指研究如何从少量的样本中去学习。小样本的信息间隔大,提供的可用信息少,这样少的样本集合无法完全揭示群体的整体特征。如今的大数据时代,小样本问题依然存在,如在医学领域的癌症研究中,由于基因数据获取技术要求高、成本高、涉及病人隐私等原因,导致可供研究的样本较为有限,从而很难进行有效研究。本文分别基于EPSO-VSG框架与WGAN生成大量虚拟样本,以填补小样本之间的信息缺失,从而达到提高小样本的预测精度的目的。最后利用极限学习机、支持向量机、随机森林、XGBoost构建预测模型并应用于膀胱癌的治疗案例中预测进行实证,以预测药物用量。实证结果表明,针对膀胱癌的治疗案例,虚拟样本可以有效提高小样本的预测精度,并且随着虚拟样本量的增加,其预测精度也在逐渐提高。总体来看,基于虚拟样本的XGBoost的模型预测精度最高,而基于虚拟样本的极限学习机模型预测精度相对最低。对于基于虚拟样本的XGBoost模型,增加的虚拟样本量越多,模型预测精度的提高程度越高。在训练集样本量很小的情况下,加入虚拟样本的随机森林与XGBoost的预测精度较高。加入虚拟样本的极限学习机模型与随机森林模型只需要增加相对较少的虚拟样本就可以较为显著的提升模型预测精度,增加更多的虚拟样本对模型预测精度的提升效果不大。支持向量机则刚好相反,训练集样本量越小,则需要更多的虚拟样本量。随着训练集样本量的增加,向极限学习机与随机森林型更多的虚拟样本对模型预测精度的提高具有更好的效果,而向基于支持向量机的虚拟样本模型加入相对较少的虚拟样本量就可以显著提高模型预测精度。在训练集样本量较少时,加入虚拟样本后的随机森林与XGBoost预测精度较高,无论训练集样本量的多少,加入虚拟样本的XGBoost预测精度均为最高。此外,基于WGAN生成的虚拟样本加入预测模型后在测试集上的预测误差比加入基于EPSO-VSG框架的虚拟样本更小,基于WGAN生成的虚拟样本更加有效。在基于EPSO-VSG框架的实证中发现虚拟样本对于模型预测的稳定性也有一定的提升,但是增加的虚拟样本量与对模型稳定性的提升没有明显的线性关系。
其他文献
随着移动互联网的日渐普及,基于按键的点戳行为在很多时候替代了人们的书写行为,导致手写汉字的机会越来越少。生活中对于手写汉字的关注程度和练习程度被大大弱化,致使当今社会很多人不仅写不出漂亮的汉字,甚至是挂在嘴边的字,也经常出现提笔就忘的尴尬场景,几乎患上了“书写遗忘症”。针对该现象,社会各界强烈呼吁加强对汉字的书写训练,与此同时国家也颁布了一系列的政策纲要,强调了汉字书写的重视性,并进一步促进书法训
阿尔兹海默症是一种常出现老年群体中的神经性脑疾病,是全球第四大死亡原因。我国2019年的研究显示,中国老年人群痴呆患病率接近6%,约有1000-1100万人正在经受着疾病带来的痛苦,一项2019年的研究显示,预计在不久的将来发病总人数会有显著增加。阿尔兹海默症病症情况较多且复杂,诊断需要大量的检查,检查费用高昂,另外还存在我国人民群众对医疗需求日益加深和医疗资源分配不均之间的矛盾,因此阿尔兹海默症
基于大数据、云计算等科技创新技术,中国的数字经济特别是数字金融经历了快速的发展,如云闪付、支付宝、微信支付等。这些移动支付工具提高了金融服务的可得性和便利性,从而推动中国普惠金融的发展。数字普惠金融能够充分发挥科技创新优势,突破传统金融服务模式面临的障碍,被普遍视为推动包容性增长的重要途径之一。同时,现有文献主要研究分析普惠金融对经济发展或包容性增长水平的影响,但关于数字普惠金融对包容性增长的研究
当前互联网贷款行业正处于促健康化、规范化发展阶段。信用风险是从互联网贷款行业到整个金融业最常见、最基本的风险之一,信用风险的识别也是关注的重点问题之一。互联网贷款相比传统金融信用风险更高,因此亟需研究如何借助更多的信息识别信用风险。目前在网贷信用风险识别的研究中,算法和指标都有研究空间。借款人通过通话交流、文本信息提交等方式对借款目的、还款能力、还款意愿等信息的主观描述会被记录,这些借款描述在一定
改革开放以来,中国经济规模不断发展壮大。然而以往主要依赖扩大投入要素来增加产出,这种经济发展方式会导致资源短缺、生态环境质量恶化等严重问题。因此,当务之急是寻找一条绿色可持续的发展道路。随着对美好生活的日益向往,大众对各方面的要求也越来越严格。环境问题作为目前社会发展的一个重要问题,被越来越多的人所重视。有关部门通过出台一系列相关法律法规来对环境问题进行规制,以促进环保生产。但环境规制在推动企业绿
近年来,中国数字经济的规模在不断提升,数字经济时代企业信息平台的建设和互联网服务业的兴起带动了电子商务的发展,线上消费群体愈发庞大。商品的定制化、多样化影响着人们的消费需求和消费结构,居民消费对象和消费体验的升级促使消费结构不断升级。数字经济背景下居民在住房、教育、出行、娱乐等方面的消费支出不断增加,不断扩大的内需促使企业科技进步、产业数字化转型、投资结构变动,从而引领高质量经济增长。本文的研究内
多年来,我国经济高速发展的同时,资源面临枯竭、水资源污染严重、生态环境恶化等问题日益严重,绿色发展的概念应运而生。绿色发展立足于平衡发展需求和自然资源能源有限供给之间的矛盾,有利于帮助解决当前生态环境保护中存在的突出问题,以实现可持续发展。绿色发展不仅是城市发展的要求,也是农村的发展新路径。鉴于此,党和国家就绿色发展道路的实现颁布了一系列文件规定,立志于将绿色发展理念广泛运用于人民生产生活的方方面
贫困是全球社会发展面临的重要问题,其有着复杂深刻的社会、经济内涵。2021年2月25日,我国脱贫攻坚战取得了全面胜利,我国已消除绝对贫困,扶贫工作的重心转向缓解多维相对贫困,在新时期,全面分析我国人口贫困状况,对贫困人口进行多维贫困测度,在多维贫困视角下分析我国财政支出的减贫效果,可以优化财政支出的结构,保证财政支出精准发力,并为政府实现扶贫目标和制定扶贫政策提供可靠依据。本文选取2018年中国家
突如其来的新冠肺炎疫情对我国的社会经济发展造成了极大冲击,疫情得到有效控制后,中央和地方政府便开始发布各种政策,支持企业复工复产,以求尽快恢复正常的经济社会秩序。其中,各地政府通过发放新型数字消费券的形式,扩大居民消费,定向支持特定行业和特定群体,对促进经济复苏起了重要的作用,引起了世界各国的关注。从三月下旬开始,全国有200多个城市陆续发放了消费券,5个月时间不到,就有超300亿消费券发放。鉴于