基于LSTM模型的新冠病情预测和影响因素分析

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:Vincent_Jiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:筛选出对病情发展有重要影响的因素,对新增确诊人数和新增死亡人数做出预测。通过随机森林的特征重要性筛选出对疫情发展影响最大的因素,使用LSTM(Long Short Term Memory Network)建立预测模型。机场的繁忙程度对确诊人数影响最大,人口密度与死亡人数的关联性最大。美国地区的人口密度和机场交通情况对感染人数影响较大,从而影响年龄在80岁以上老人的死亡率,但分析结果显示美国疫情发展已基本趋于稳中下降的态势。
  关键词:COVID-19;影响因素;LSTM;感染数;死亡数
  中图分类号:R318;TP183    文献标识码:A    文章编号:2096-4706(2021)07-0091-04
  Disease Prediction and Influencing Factors Analysis of COVID-19
  Based on LSTM Model
  HU Haiwen
  (School of Mathematics and Physics,Lanzhou Jiaotong University,Lanzhou  730070,China)
  Abstract:To screen out the factors that have an important impact on the development of the disease,and to predict the number of new confirmed cases and new deaths. Based on the importance of random forest characteristics,the most influential factors were screened out,and the LSTM(Long Short Term Memory Network)was used to establish the prediction model. The business of the airport has the greatest impact on the number of confirmed cases,and the population density has the greatest correlation with the number of deaths. The population density and airport traffic conditions in the United States have a great impact on the number of infected people,thus affecting the mortality of the elderly over 80 years old. However,the analysis results show that the development of the epidemic situation in the United States has basically tended to a steady decline.
  Keywords:COVID-19;influencing factor;LSTM;number of infections;number of deaths
  收稿日期:2021-03-11
  基金项目:国家自然科学基金(61863022)
  0  引  言
  2019年底暴发的新冠肺炎疫情(COVID-19)给全世界的醫疗健康、经济发展带来了巨大影响。由于早期对病毒(SARS-CoV2)缺乏相应的认知,未能做到及时采取有力的应对措施,导致全球的感染人数急速增长。随着对病毒了解程度的加深,各国政府先后采取各种非药物干预(non-pharmaceutical interventions,NPIs)措施,例如公共场所佩戴口罩、保持社交距离、对外来人员实行集中管控及隔离等措施,在很大程度上抑制了病毒的传播,使得疫情得到有效的控制。但由于超级传播者和无症状感染者的存在,使该地区的感染人数在短期内会迅速增加,这在一定程度上加大了疫情防控的难度。据世界卫生组织公布的数据,截至2021年4月29日,全球新冠确诊病例达到149 197 928例,死亡病例为3 146 119例。需要注意的是,当传播概率一定时,即使疫苗注射普及率很高,但疫苗的有效性较低,仍会有极大可能发生感染大爆发,光靠疫苗注射控制疫情的效果可能不如采取严格的非药物干预措施[1]。所以,针对新冠传染情况比较严重的地区,进行传染因素和影响病情发展因素的分析,对有针对性地控制疫情发展具有重要作用,此外,对疫情发展的有效预测,对后期疫情的管控和预防意义重大。
  美国作为新冠疫情的重灾区,确诊病例高达3千多万例,虽然目前已经开发出疫苗,但早期感染数量较大,同时病毒不断变异,病情还是有很大可能会继续恶化下去。本文分析了疫情发展过程中导致患者感染和死亡的主要因素,通过对疫情发展的预测,为后期更有针对性地实施防御保护措施提供支撑,同时也可以为后续类似呼吸疾病的预防和管控提供宝贵的参考经验。
  1  数据、特征选择与方法
  1.1  数据来源与特征选择
  本文从纽约时报、美国劳工统计局、美国人口普查局等网站获取了2020年美国各个州的静态特征数据[2],包括各州的GDP、面积、人口密度、人口分布情况等,具体如表1所示。此外,从Johns Hopkins University Center for Systems Science and Engineering(JHU CSSE)[3]中获取了美国新冠发展的具体数据,其中包括从美国确诊第一例新冠病毒开始,到2021年5月为止的每日新增确诊数和死亡数、7日平均新增病例数以及总感染人数和死亡数。其中,静态数据可以更好地体现各州的综合情况,能直接反映出受新冠病毒影响最严重的群体,同时可得出新冠病毒的发展与哪些静态稳定的因素有关[4-6]。因为该数据集涵盖的因素过多,直接用所有特征进行相关性分析会比较繁琐耗时,所以本文首先对近100多个相关的因素进行特征筛选,采用随机森林的重要性评分方法进行重要性评估,得到对新冠感染人数和死亡人数影响最大的前10个因素,然后再对较重要的因素进行相关性分析,得到影响程度比较大的因素。疫情预测所使用的数据来源于JHU CSSE在GitHub上公开的开源数据,数据质量较好,没有空白数据,因为每日新增病例更能看出疫情整体的发展变化趋势,所以预测的重点在于新增病例的情况。   1.2  理論方法
  1.2.1  随机森林
  随机森林作为一种监督式分类算法,可以学习数据特征与标签的关系,它通过自助法(bootstrap)重采样技术,不断从原始训练样本集N中有放回地反复随机抽取n个样本,生成一个新的训练样本集合,最终用来训练决策树,多次重复后就得到了多棵树组成的随机森林。而通过随机森林的重要性评估可以实现对结果影响最大的特征选择,达到压缩模型所用的特征数的作用[6]。计算公式为:
  (1)
  其中,袋外数据误差为errOOB1,在计算过程中,随机地为袋外数据加入噪声干扰,会得到新的袋外数据误差errOOB2,N为随机森林树的个数。如果在特征中随机加入噪声后,袋外准确率呈现较大幅度的降低,则代表该特征对样本分类结果影响很大,该特征的变动会极大程度地影响分类结果,即证明其重要性程度比较高。
  1.2.2  LSTM
  长短时记忆网络(Long Short Term Memory Network,LSTM)为改进后的循环神经网络(Recurrent Neural Network,RNN)。它能解决RNN对短期的输入敏感的问题,此外,LSTM在RNN的基础上增加了一个状态结构和三个门结构,如图1所示,即:单元状态(cell state)、遗忘门、输入门和输出门。其中,遗忘门通过函数控制之前信息的输入程度,输入门控制当前信息的输入程度,输出门则用来控制最终输出[7-9]。LSTM能够综合处理长期和短期的输入,非常适合处理时间序列的预测问题。
  遗忘门会读取ht-1和xt的信息,当ft=0时,该部分被遗忘,当ft=1时,信息会保留,ft的计算公式为:
  (2)
  第二个过程是要将新信息存放在长期状态里,此过程包含三个部分:首先是tanh层创建一个新的候选值向量,然后输入门层it控制对候选向量的哪些元素进行更新,最后新信息被加入到长期状态中[10],此过程的计算公式为:
   (3)
  (4)
  (5)
  输出门则基于细胞的状态,确定最后输出的值。首先通过sigmoid层确定输出的信息,然后通过tanh层对长期状态进行处理,将其与经过输出门过滤的信息相乘,得到最终的ht,计算公式为:
  (6)
  (7)
  1.2.3  度量指标
  本文使用R2的大小来衡量模型的预测精度[11]。R2的计算公式为:
  (8)
  其中,为预测值,y(i)为真实值,为平均值,有用模型的R2范围一般是在0到1之间,R2越接近于1,表示模型的预测效果越好,越接近于0,表示模型的预测效果越差,如果R2为负数,则表明模型拟合的预测误差过大。
  2  结果
  2.1  特征筛选结果
  通过随机森林中的特征重要性对所有特征进行重要性评分,然后对结果排序,取出前十个数据,结果如表2所示。通过计算结果可以得出,新冠肺炎的确诊人数与年龄在25~29岁、50~54岁和85岁以上、距纽约的距离、机场繁忙程度、地区GDP、亚裔、流浪者人数、封锁天数有比较大的关系,而死亡人数与年龄在55~59岁、80岁以上、距纽约州、纽泽西州的距离、机场繁忙程度、地区GDP、人口密度和封锁前的检测人数有关。
  进一步对选出的因素做相关的关系分析,结果如图2所示。
  得出结论:确诊人数主要与地区机场的繁忙程度、地区GDP水平、年龄在50~59岁、80~84岁、85岁以上、人口密度和流浪者人数有较大的关系,可以推测,某地区GDP水平比较高时,该地区的人口密度较高,交通会比较繁忙,所以当某地区的人流较大时,新冠肺炎确诊的人数会比较多,老年群体,尤其是年龄在80岁以上的老人,更有可能被确诊感染新冠病毒。死亡人数与人口密度、地区机场的繁忙程度、年龄在80岁以上的老人人数相关性较大,当人口密度高、交通繁忙时,会使病毒传染更快,确诊人数的增加,加之老年人的抵抗能力较弱,使得死亡病例更多集中在80岁以上的老年群体中,且死亡率没有呈现种族偏好。
  2.2  LSTM预测结果
  预测采用的数据是从2020年1月22日美国出现第一例确诊病例开始,到2021年3月1日为止,全美国每日出现的确诊病例和死亡人数。由于数据从0开始增加到万,为减少量纲对预测结果的影响,对数据进行归一化处理。模型输入层为1层,隐藏层为6层,可以达到较佳的拟合情况,优化器选择了随机梯度下降(SGD),能够有效避免陷入局部最优,同时也能加快收敛速度。预测时,采用了的间隔取数,避免局部数据的影响。最终得到模型的R2=0.830 3,最终的预测模型拟合情况如图3、图4所示。从预测图中可以看出,美国每日新增确诊和死亡人数已基本稳定且不断减少,疫情得到缓解。
  3  结  论
  本文首先对影响美国疫情发展的一些静态数据指标进行了分析,筛选出比较重要的特征后进行确诊病例和死亡病例的相关性分析,发现美国新冠的确诊人数与年龄在85岁以上、地区的交通繁忙程度和GDP发展水平等因素的相关性最大,而死亡人数则与人口密度和年龄在80岁以上的相关性最大。得到此结论后,本文采用了LSTM建立模型,对美国疫情的每日发展情况进行了预测,通过预测结果可以看出,美国的疫情目前已经趋稳,确诊人数和死亡人数都在不断下降。
  参考文献:
  [1] TANG B,ZHANG X,LI Q,et al. The minimal COVID-19 vaccination coverage and efficacy to compensate for potential increase of transmission contacts,and increased transmission probability of the emerging strains [J/OL].BNE Public Health,2021:[2021-02-24].https://www.researchsquare.com/article/rs-140717/v1.   [2] CDC. Covid data tracker [EB/OL].[2021-03-01]. https://covid.cdc.gov/covid-data-tracker/#datatracker-home.
  [3] Johns Hopkins University & Medicine. COVID-19 Dashboard by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU) [EB/OL].[2021-03-01].https://coronavirus.jhu.edu/map.html.
  [4] RANDHAWA G,SOLTYSIAK M,EL ROZ H,et al. Machine learning using intrinsic genomic signatures for rapid classification of novel pathogens:COVID-19 case study [J/OL].PLOS One,2020,15(4):[2021-03-01].https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0232391.
  [5] 胡小亮,路方紅,刘振东,等.原发性高血压患者血压晨峰与心血管疾病危险因素相关性分析 [J].中国循环杂志,2012,27(2):95-98.
  [6] 汤正义,李向利,张炜,等.2型糖尿病神经病变的发病情况与有关因素相关性分析 [J].中华内科杂志,2003(12):47-48.
  [7] 黄梅,朱焱.基于随机森林特征重要性的K-匿名特征优选 [J].计算机应用与软件,2020,37(3):266-270.
  [8] 李俊卿,李秋佳,石天宇,等.基于随机森林重要性的LSTM网络风电功率缺失数据补齐 [J].电器与能效管理技术,2018(13):47-52+58.
  [9] 欧阳红兵,黄亢,闫洪举.基于LSTM神经网络的金融时间序列预测 [J].中国管理科学,2020,28(4):27-35.
  [10] ALIMADADI A,ARYAL S,et al. Artificial intelligence and machine learning to fight COVID-19 [J].Physiological Genomics,2020,52(4):200-202.
  [11] WANG P P,ZHENG X Q,LI J Y,et al. Prediction of epidemic trends in COVID-19 with logistic model and machine learning technics [J/OL].Chaos,Solitons & Fractals,2020,139:[2021-03-01].https://doi.org/10.1016/ j.chaos.2020.110058.
  作者简介:胡海文(1995—),女,汉族,甘肃嘉峪关人,硕士研究生在读,研究方向:应用统计。
其他文献
5G作为新一代移动通信技术,具有大带宽、广连接、低时延三大特点,逐渐得到各行各业的广泛应用,尤其在高清视频直播、VR等行业的应用更为普遍。5G网络速率不仅是衡量网络性能的一个重要指标,也影响着各行业的体验感知。该文对5G网络速率的提升进行研究,通过Massive MIMO特性和载波聚合特性提升重要场景的5G速率,多次验证并总结了5G速率提升效果。
国产芯片制造行业能否发展壮大,成为我国高科技是否能够冲出重围的决定性因素。作为芯片封装过程中的关键工艺之一,bonding的质量控制也将在一定程序上决定芯片的功能以及可靠性水平。如何对bonding质量控制尽早进行先期策划并实施有效且低成本的检测,成为了业内广泛探讨和急需解决的问题。文章通过统计过程控制和自助法的运用,对bonding拉力检验过程进行优化,在降低测试成本的同时变事后检验为事先预防。
文章分析了边灯式FOD探测设备伺服控制系统的特点,从转台框架设计、伺服控制器硬件设计和伺服控制器软件设计三个方面介绍了伺服控制系统的设计与实现。结构上采用步进电机经行星减速机构及齿轮副减速的形式,伺服控制器硬件采用TMS320F28335作为主处理芯片,软件采用模块化方法进行设计和实现。该伺服控制系统已完成实现,并已通过了高低温及振动冲击环境试验,能够满足工作方式、精度、环境适应性和远程更新等需求。
在对低压台区拓扑识别实现方法进行研究的基础上,文章分析了“基于用电信息的分析法”“电流注入法”“停复电分析法”“手机APP沿布图方法”4种拓扑辨识方法的原理及实现步骤,阐述了拓扑辨识CIM文件的标准及格式。从“建设成本、施工量、辨识精度、拓扑发生变化后是否能自动更新”4个角度总结对比了4种拓扑辨识方法的差异,施工单位可根据不同的需求和情境采用不同的方法。
摘要:随着校园一卡通的应用,学生在校行为数据得以客观记录。为了解决高校学生工作中对于经济困难学生认定存在的主观性强,认定材料烦琐等问题,文章采用数据挖掘方法,采集某高校校园一卡通消费数据,应用神经网络算法构建高校经济困难学生精准认定模型。该方法有助于实现对学生经济困难等级的辅助预测,提高高校学生资助工作的科学化水平。  关键词:数据挖掘;人工神经网络;学生资助  中图分类号:TP18 文献标识
针对实际交通环境下行人和车辆检测问题,提出一种基于YOLOv3改进的目标检测网络YOLO-CP,对YOLOv3网络结构进行压缩剪枝,并进行特征提取的优化,使用自主采集标注的交通数据集,进行稀疏化训练。在实际交通场景中,YOLO-CP在GPU下检测速度达到25帧/秒,车辆检测准确率达到96.0%,行人检测准确率达到93.3%,优化算法满足了ADAS对实时性和高精度的要求。
随着机场飞行量的快速增长,机场交通管制工作的难度越来越大,对设备的要求也随之提高。停止排灯控制功能是灯光引导功能的重要组成部分,可实现远程控制机场场面的助航灯光系统,能够为民航机场管制工作提供帮助。该文介绍了灯光引导功能中停止排灯控制功能的基本情况、技术实现和软件接口,并对停止排灯控制功能运行的风险进行了分析。该文以首都机场停止排灯控制功能为例进行了分析研究,为类似系统的设计和应用提供参考。
摘要:为了实现一维用户阅读数据的关联化与可视化,分析了图数据库在数据挖掘方面的优势,以西安航空学院2020年的202 941条用户阅读数据为数据源,基于图数据模型,采用Neo4j技术,定义了7类实体、6类关系及其属性,构建了用户阅读数据图数据库。结合查询功能,讨论了Neo4j用户阅读数据图数据库在数据查询、图书推荐等方面的应用,希望为图书馆资源与服务建设等提供有效的数据支持及技术指导。  关键词:
目前,5G通信技术已经广泛应用于手机通信、人机交互、视频传输中,随着5G通信技术的飞速发展,对硬件器件整体性能要求也逐渐提高。滤波器在基于5G的通信技术中起着重要作用,通常运用于抑制通信信号干扰。由此,性能高、体积小的滤波器已经成为元器件领域研究的重点问题。文章在介绍了LTCC技术和低通滤波器原型的基础上,提出了滤波器电路模型设计方案,能够满足5G通信对元器件高性能要求。
在三维角色制作过程中,传统的面片毛发摆放方法因其梳理工具效率偏低且不够直观。通过设计优化了写实毛发制作的技术流程,利用贴图烘焙,把不能直接用于影视与游戏模型的FiberMesh毛发转化为写实毛发贴图、放弃复杂面片摆放效率偏低的3dsMax,转而拓展使用ZBrush的曲线弯折变形器,更加直观灵活梳理出复杂的发型,最终,提升了写实角色模型毛发制作效率。为游戏角色模型、影视动画模型毛发的设计提供了新思路