北京、辽宁省2011-2016年整合百度搜索及传统监测数据的流感支持向量机回归预测模型构建

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:renalee9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:1、探讨支持向量机(SVM)回归模型在整合百度搜索引擎数据和传统流感监测数据中的应用;2、探讨北京、辽宁省流感SVM回归模型应用。研究方法:北京、辽宁省2011年1月-2016年12月每月流感发病率数据来自中国国家公共卫生科学数据中心。以“流感”为初始值在“站长之家”挖掘与“流感”关系最为密切的网络关键词。然后在百度指数上收集挖掘出的网络关键词在北京与辽宁省2011年1月-2016年12月的月搜索量。分析不同滞后期关键词与流感发病率之间的相关性,选择相关性有统计学意义且相关系数大于0.4的百度搜索关键词进入SVM回归模型的构建中。采用穷举法列举SVM回归模型中的三个参数(C、γ、ε)的可能取值,再采用“留一法”交叉验证的方式来选择较优模型参数值进行模型构建。采用均方根误差(RMSE)和均方根相对误差(RMSPE)两个评价指标对模型的性能进行评价。相关分析采用IBM SPSS 22.0软件,SVM回归模型构建使用R 3.4.2中e1071包进行。结果:北京流感发病率的变化幅度比较大,季节性特别明显,且在流感流行高峰季节的发病率呈现逐年递增。辽宁省在流感高峰期的发病率变化幅度相较于北京小很多。相关分析结果显示北京有26个百度关键词进入模型,辽宁省有17个百度关键词进入模型。基于北京流感数据的SVM回归模型中较优模型参数值分别为C=6,γ=0.005,ε=0.01,基于辽宁省流感数据SVM回归模型中较优参数值为C=3,γ=0.005,ε=0.01。北京基于百度关键词数据的模型RMSE和RMSPE最小,为5.491561和0.605623,这两个指标的值与整合数据来源的指标值相差不大,并且都比基于以往流感发病率数据来源的模型指标值要小,可以认为北京的百度关键词模型和整合数据模型的预测效果要好于只基于以往流感发病率数据的支持向量机回归模型。基于滞后1月流感发病率+百度关键词整合数据来源的辽宁省支持向量机回归模型的RMSPE是最小的,为0.290522。因此辽宁省滞后1月流感发病率+百度关键词整合数据模型的预测效果要优于基于以往流感发病率数据的模型。结论:利用互联网搜索引擎查询数据作为传统流感监测的补充数据源具有一定可行性,SVM回归模型对辽宁省流感疫情的跟踪是有效的。基于辽宁省流感历史发病数据与百度搜索数据的支持向量回归模型比基于北京流感历史发病数据与百度搜索数据的模型更加稳定。
其他文献
针对传统的电子技术课程设计教学过程中存在的问题,根据工程教育专业认证的要求,基于产出导向的教育理念进行了教学改革。根据自动化专业毕业要求指标点制定了电子技术课程设
[研究背景]1型糖尿病(T1DM)是器官特异性的自身免疫性疾病,主要特征为慢性、渐进性胰岛β细胞的破坏,导致胰岛素严重缺乏。细胞因子被认为在自身免疫调节和胰岛β细胞凋亡中
信息时代的到来对文博事业的发展也造成了一定的冲击,文博事业是中国特色社会主义文化体制的重要组成部分,因此本文针对文博事业实现跨越式发展进行了研究,从博物馆建设的重
目的了解我院抗菌药物使用情况,对照卫生部《抗菌药物临床应用指导原则》进行分析,为临床安全、有效、合理的使用抗菌药物提供参考。方法查阅我院2007年-2008年归档病历3 120
磁刺激是利用变化磁场产生的感应电场作用于可兴奋人体组织的过程。根据磁刺激线圈感应电场理论,研究8字形线圈摆放结构、线圈间距等空间位置的变化,对其刺激深度感应电场聚
中小企业是技术创新的主导力量,支持和推动中小企业技术创新,是推动济南技术创新的重要环节,是着眼于济南经济健康发展的长远之策。通过对济南中小企业的现状分析发现,中小企
近年来,济南市在放开搞活国有中小企业和集体企业方面进行了许多有益的探索,取得了一定的成效和经验,但还面临着诸多问题:一是企业历史包袱沉重,改革进程滞后;二是改革成本高
最近几年,3D打印、机器人、可穿戴设备、VR、无人机等概念风靡全球。其中3D打印技术被认为将引领新一轮工业革命。而现实也是如此,3D打印技术已经在工业制造领域取得广泛应用
目的观察奥扎格雷钠联合苦蝶子注射液治疗急性脑梗死的疗效。方法将120例急性脑梗死患者随机分为奥扎格雷钠组(32例)、苦碟子组(38例)和联合组(50例)。苦碟子组使用苦碟子40m
随着大数据及数据挖掘技术的发展,云计算环境中用户访问模式成为泄露用户隐私的一条途径.不经意随机存取技术(ORAM)是保护用户访问模式的一条有效途径.现有的ORAM方案中,大部分