非随机样本增容XGBoost模型的空气质量分类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:joshua5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习模型的有效应用主要由数据、算法以及算力三个部分构成,眼下该类模型的研究热点为对机器学习算法部分进行改进。但是在现实应用领域中,主要制约着机器学习预测效果的因素是数据质量,特别是数据量少、数据类别多的情况下,数据的规模和质量将无法与算法的要求相匹配。因此,针对数据量小、类别多所导致的XGBoost模型训练和预测效果较差的问题,目前常用的方法有:在类别不均衡的样本中采取过采样或欠采样的方式;在图像数据中采用数据增强方式。当数据为均衡、非图像数据时,如何利用有限的数据提升XGBoost模型在测试集上的预测准确率成为了本文需要解决的问题。为了解决该问题,提出了基于非随机样本增容的XGBoost模型。通过对原本已分开的测试集采取非随机抽样,并将抽取样本放回原训练集,以此来增加训练集数据量,加强XGBoost模型的训练强度,提升了该模型在测试集上的表现能力,主要的研究成果为以下两个部分。第一,将XGBoost模型与非随机样本增容相结合,利用产生的模拟分类数据进行预测分析。发现非随机样本增容后,XGBoost模型在测试集上的表现能力有着不同的提升,提升精度从0.21%到3.33%不等。通过重复进行非随机样本增容后,所得到的最大正确率均在标准化后的期望和方差交界之前。第二,采用非随机样本增容XGBoost模型对成都、哈尔滨、昆明三个城市的空气质量进行实证分析,所得结果显示:(1)与XGBoost模型预测结果相比,成都、哈尔滨、昆明的空气质量分类预测精度分别提升了3.48%、0.3%、0.6%;(2)基于Optuna调参框架对模型进行超参数调参,相较于调参之前,三个城市的预测精度分别提升了8.36%、5.47%、2.13%。本文模拟与实证研究表明,在非平衡小样本情况下,非随机样本增容方法能够有效提升XGBoost模型在测试集上的表现能力,因此该方法可以推广到类似数据中。
其他文献
在医学领域、经济领域、工业领域和环境问题等的跟踪研究中,常常会收集到纵向数据和生存数据这两类复杂数据。在我们的建模过程中,纵向过程与生存过程通常是有关联的,因而联合建模这两类数据常被采用。它减少了对建模效果的估计偏差,并提高了对建模效果和其他因素的评估效率。常见的联合建模方法一般有两阶段法、共享随机效应项和共享轨迹函数。关于联合模型的参数估计方法,有频率学派方法和贝叶斯方法。与频率学派方法相比,贝
学位
如今,社会老龄化现象越来越严重,阿兹海默症的发病率也逐渐增高,严重影响老年人的身体健康,给社会带来了新的问题和挑战。传统阿兹海默症的诊断研究是基于测量量表和核磁共振成像MRI、FMRI数据相结合的诊断技术。阿兹海默症的脑图像数据随着年龄的变化而变化,且目前没有较好的诊断技术来研究阿兹海默症进程的变化情况。因此如何对不同时段人脑图像数据建模分析探索阿兹海默症进程的变化是本文主要研究问题。本文采用动态
学位
简单介绍了光刻胶的组成部分,综述了近年来国内外光刻胶成膜树脂合成、开发的研究进展,并根据不同曝光波长所需的不同光刻胶(包括紫外(UV)光刻胶、深紫外光刻胶、极紫外光刻胶等)进行了介绍。重点介绍了各光源下分子量和分子量分散指数对光致抗蚀剂的影响,并对国内外研究中通过不同聚合工艺制备的不同分子量光致抗蚀剂性能进行了评述,总结了近年来含有特定化学结构的光致抗蚀剂以及其制备工艺的研究进展。最后对国内外光刻
期刊
在跟踪研究中,通常会观测到同一个体的两个及以上的事件时间,在实际情况中,这些事件时间往往不是独立的。尤其在成对的器官中,当一个器官失效,另一个器官的生存时间也会发生变化,比如同一个人两个不同器官的衰竭时间、癌症复发时间和死亡的时间等,这些二元生存数据之间存在相依性。把相依生存数据看作独立的生存过程来研究,得到的结果会是有偏的甚至是错误的。因此,建立二元相依生存分析模型并对其进行统计诊断具有重要的理
学位
缺失数据和失效时间数据通常同时存在于医学、生物学、社会科学、经济学等领域,特别是在一些生物医学相关的研究当中,数据往往是缺失的,例如在肺癌的研究中,由于某些病人跟踪一段时间后突然离世,从而造成数据的缺失。还有在对抗癌药物的研发过程中,需要将不同剂量的抗癌药物注射到小鼠体内,通过观测注射药物后小鼠体内肿瘤的体积大小来验证药物的药效,然而,在实验完成之前由于各种原因,小鼠可能会死去,或者由于一些其他原
学位
随着我国经济社会的发展,人们生活水平逐渐提高,拥有更多的闲置资金,于是把目光转向一些理财产品上,股票因其有着较高收益的特性,成为了多数人的选择。但股票在有着高收益的同时也有着较高的风险性,股市纷繁复杂、变化莫测,诸多因素都对股价有着重要的影响。得益于行为金融学理论的支持,人们逐渐关注投资者的心理状况和情绪对于股市的影响。近年来,机器学习和自然语言处理技术飞速发展,使得通过网络媒体的文本信息来度量投
学位
传染病对人类社会有很大的威胁,也是影响国家安全和经济发展的重要因素,如今我们所处的环境复杂多变,传染病的防治工作更为艰巨。如何对传染病数据进行分析和预测,这对国家的安全和经济发展来说是非常重要的,因此可以借鉴相关的数学模型对传染病数据进行研究。我国对新冠病毒肺炎的防治策略采取的是限制人口流动,提倡减少外出,戴口罩、不聚集等的“类SARS策略”,而国外部分国家采取的是不做太多干预的“类大流感策略”。
学位
随摄像设备在智能手机端的普及与应用,数字图像已成为传播个人信息的重要媒介之一,数字图像具有方便快捷、内容易理解等特点,比起书面文字更容易让人们接受,因此被广泛运用在各个领域中。与此同时,为满足人们为数字图像添加自己想要表达的内容,各种功能强大的图像编辑软件应运而生,对图像的编辑使得图像原本的内容受到曲解,变成伪造图像。而这些伪造图像一旦在互联网以及社交媒体中传播,将会给人们带来错误的信息,对客观世
学位
随着国家乡村振兴战略的逐步深入,乡村文化充分发挥了日益巨大的社会功能,并逐渐成为乡村思想政治教育的重要载体。只有通过文化建设加强思想政治教育,落实新的发展观,激发乡村发展的内生动力,才能更好更快地推进乡村振兴。山西长治振兴村作为“全国乡村振兴示范村”,在长期社会发展中创造出了独具特色的乡村文化,即“三色”文化:以“根”、“孝”为核心的古色文化,以“听党话、跟党走”为核心的红色文化,以“生态保护、绿
学位
白酒作为中国特有产业之一,其不仅在我国具有悠久的历史和独特的民族文化内涵,也为推动国民经济做出了巨大贡献。研究影响白酒销售量的因素,能够帮助我们更好的把握白酒市场风向,及时调整销售战略。首先,在白酒销售量的影响因素分析中,由于数据存在重复测量、交叉测量等原因,自变量之间存在高度相关,随机误差项不满足零均值同方差等假设,传统估计方法显得捉襟见肘。为解决此问题,本文采用广义矩估计方法对模型参数进行估计
学位