基于特征选择和SVM的PM2.5预测研究

来源 :南宁师范大学 | 被引量 : 1次 | 上传用户:shb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的快速发展,人类已经不知不觉地进入了数据与日俱增的时代。面对世界快速堆积的大量数据,数据挖掘、深度学习和人工智能等新兴学科正在蓬勃发展,这些机器学习工具可以帮助我们从海量的数据中找出有价值的信息。其中,使用特定的机器学习模型根据已知的数据特征来分析和预测未知的数据和结果是目前科学研究的一个热点,这样就使得我们的研究者可以通过使用模型方法得到预测的数据和结果,对未来事物的发展做出更加正确的判断和决择。但是由于在实践中机器学习会产生大量不完整、有重复性的数据,如果我们不对这些数据进行约简处理,就直接使用机器学习模型进行预测,那么我们在实践中得到的结果肯定也是受到一定程度的损失。所以在数据挖掘领域,特征分析对模型的选择和评价得到了研究者的日益重视和关注。而以特征选择为代表的数据预处理则可以在一定程度上解决这一问题,通过特征选择,对数据的预测精确度以及学习的效率都有诸多好处。支持向量机(Support Vector Machine,SVM)方法是一种以统计学习理论为理论基础的机器学习技术,以系统结构风险最小化原则为预测思路,从上世纪被提出以来,几十年来得到了国内外学者的深入研究和不断发展。为了有效解决其他预测方法存在的“过学习”问题,SVM引入了核函数、松弛变量以及基于结构风险化最低准则等概念,从而很好地解决了非线性的数据分类问题。目前SVM方法已经广泛应用于金融、生物信息识别、建筑科学等学科的线性不可分问题。本文以此理论为基础,将粒子群算法(Particle Swarm Optimization,PSO)与SVM进行结合,构建了PSO-SVM预测模型,然后将PSO-SVM模型与提出的特征选择方法结合起来,设计出一种组合预测模型。首先使用数据分析方法对原始数据进行分析训练,然后将训练得到的结果与实际的数据进行对比,最后通过引入相关分析指标来评判模型的性能优劣,通过大量的实证分析检验模型的实际可行性,并在实验中得出了较好的效果。本文研究内容如下:(1)研究提出了一种基于特征间因果关系的新方法——基于特征间因果关系的线性方法(Causality Based Linear,CBL)。本文采用CBL方法删除冗余特征,可以有效地减少后续的数据分析工作。(2)本研究中,选用SVM进行学习,然后使用PSO优化SVM参数,希望能进一步降低模型预测误差。(3)提出了使用CBL特征选择方法和SVM的组合优化模型对PM2.5进行预测,将两者结合起来可以得到新的组合预测学习模型,该学习模型将使用CBL方法优化过的数据作为SVM优化学习模型的输入,首先对原始实验数据进行预处理步骤,然后把处理过的数据输入到组合模型中,最后得出模型的结果。(4)本文用UCI(University of California,Irvine)网站上具有代表性的12组数据集对组合模型进行验证。结果显示,本文提出的组合模型比单一SVM模型具有较高的可行性和准确率。本论文将特征选择算法、PSO以及SVM的理论研究结合应用于当下实际民生热点,不仅从理论上验证了基于特征选择算法和PSO的SVM预测模型的精确度,更是未来城市空气质量实时监控和调节的理论研究基础,从而使得本论文的研究具备一定的实际指导意义。
其他文献
水稻条纹花叶病毒(Rice stripe mosaic virus,RSMV)是弹状病毒科(Rhabdoviridea)细胞质弹状病毒属(Cytorhabdovirus)的暂定新种,2015年由作者所在研究室首次发现于我国广东省
特稠油采用蒸汽吞吐技术开发进入中后期阶段,周期含水率高,开发效果差,仅靠蒸汽吞吐单一的开发方式已不能满足矿场生产需求。鉴于CO2在地层中具有降低原油黏度、改善油水流度
近现代以来,生物数学的发展日新月异,一方面通过建立数学模型来了解、预测生物过程的机制,另一方面借助模型来发现新的数学问题,探索新的数学方法.以实际问题为背景,借助微分方程,建立种群动态模型.例如:反应扩散方程能够很好的刻画种群消长与种群数量、环境等因素之间的关系.本文研究了对于一个含移流项的种群生态系统中,如何对栖息地中的资源进行配置,以实现种群数量最大化的问题.主要考虑了下述含移流项的反应扩散模
改革开放40年来,中国经济体制改革的推进突显了企业作为市场经济资源配置的核心增长动力的决定性作用。目前我国经济发展处于产能过剩,产业结构不合理与区域经济发展不协调的瓶颈期,与此同时,区域经济发展存在着严重的资源浪费与环境污染问题,由此可见绿色协调的区域经济发展显得犹为重要。而作为区域经济发展的核心动力,外商直接投资可以带来资本,先进的技术为区域经济发展提供帮助。在面临各地区政府相继出台相关政策持续
氮素污染是近年来我国水环境污染日益严重的主要诱因之一。水体退化的主要原因之一是氮素污染,过量的氮负荷会增加水体的富营养化。同时硝酸盐会在人体中极易被还原成亚硝酸
作为一种新型特种工程塑料,半结晶型聚芳醚腈由于其优异的机械性能,耐辐射性和高的热稳定性,在国防、军事和航空航天等领域具有潜在应用价值。然而其较低的结晶度及结晶速率限制了对聚芳醚腈结晶行为及加工应用的进一步研究。半结晶型高分子的结晶行为主要取决于高分子的链结构、高分子材料成型加工过程及外加助剂等因素,因此研究高分子链结构以及外加助剂对聚芳醚腈结晶行为及性能的影响具有重要意义。本文通过偏光显微镜测试(
2007年美国的次级抵押贷款市场出现动荡,次年引起的全球金融危机对世界宏观经济造成了重创,由此引发了各国中央银行和学术界对于金融周期与经济周期联动效应的再思考。金融经
铝基复合材料由于其优异的综合力学性能在航空航天、轨道交通、汽车等众多领域具有广泛的应用。在铝基复合材料的铸造凝固或半固态加工过程中,由于热收缩应力等因素导致的材
大块金属玻璃是近几十年来兴起的一种新型合金材料。因其独特的原子无序排列,而具有比相同成分晶体材料更加卓越的力学、物理和化学性能,引发了人们极大的研究热情。然而,作为一种非平衡亚稳态材料,在温度、压力等外界条件升高时,其无序的原子结构会发生弛豫,加速金属玻璃的老化、变脆,极大地限制了金属玻璃的实际应用。因此,怎样克服金属玻璃的弛豫和老化是其大规模应用所面临的关键问题之一。近年来,研究发现低温热循环处
随着地球资源持续消耗以及环境污染问题不断加剧,人们对环保材料的需求越来越迫切,黄麻纤维复合材料具有绿色可降解、材料来源广泛、制造成本低等优点,使其在汽车工业和建筑