Internet中流感发病率的数据挖掘及预测

来源 :重庆大学 | 被引量 : 0次 | 上传用户:shinetos
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流行性感冒,简称流感,是一种传染性强、传播速度快的急性传染病,给世界各国和地区造成了极大的健康威胁和损害。因此,科学有效的进行流感防治具有重大现实意义。在流感防治工作中,准确的预测其发病趋势是极其重要的一环。随着预测理论及预测技术的发展与完善,越来越多的统计理论、预测方法及统计模型被应用于传染病的预警。但是,对某一单一因素的分析无法全面把握传染病的流行特征及规律,考虑到历史数据具有的趋势性与新兴网络大数据具有的实时性,本文采取将流感发病历史数据与网络搜索实时数据相结合的方法建立流感发病趋势预测模型对全国流感发病率进行预测。本文的主要研究内容及成果如下:第一,构建了用于预测流感发病率的网络搜索数据指标体系。本文首先通过文本挖掘技术对从丁香医生等在线问诊平台中爬取到的300篇流感相关文本进行关键词提取与词频统计,从中得到10个初始网络搜索关键词。然后,利用需求图谱法等方法对初始关键词进行扩展,得到了包含118个网络搜索关键词在内的备选词库,接着利用时差相关分析从中筛选出19个与流感发病率具有高度相关性的先行网络搜索关键词,再利用Lasso回归的方法对得到的先行关键词进行二次筛选,以消除数据间的共线性,最终得到了七个网络搜索关键词作为预测流感发病率的指标。第二,基于历史数据与网络搜索数据,分别建立了SVR、随机森林、BP神经网络这三种单一机器学习模型对流感发病率进行预测。结果表明利用网络搜索数据可以预测流感发病率,且利用了网络搜索数据后所建立的预测模型相较于传统模型具有更高的预测精度。其中,预测误差最小的是SVR模型,其次为随机森林模型,预测误差稍大的是BP神经网络模型。第三,分别利用误差倒数赋权法和GBDT算法对SVR、随机森林、BP神经网络这三种单一预测模型进行加权融合与Stacking融合,通过比较两种融合模型与各单一预测模型的结果,发现融合模型具有更好的预测效果,其中利用GBDT算法进行Stacking融合后得到的模型预测精度最高,模型平均相对误差率为4.2%。
其他文献
党的十九大报告指出,我国经济已经由高速增长阶段转向高质量发展阶段,我国正处于转变发展方式、优化经济结构、转换增长动力的关键时期。推动经济高质量发展对畅通国内大循环、保持我国经济健康运行具有重要意义。高质量发展需要以高效率高效益生产方式为全社会持续而公平地提供高质量产品和服务,从而更好地满足人民日益增长的美好生活的需要。高质量发展既体现在供给端提高供给质量与供给效率,又体现在消费端规模扩张、消费结构
学位
实地调研是获取公司信息的重要途径之一,受市场各方面的广泛关注。与其他信息渠道相比,通过实地调研获取的公司信息含量更大,能够为调研活动发起方提供第一手资料,帮助他们更加精确地把握公司基本面情况。为维护市场信息公平、满足广大投资者的信息需求,深交所于2009年开始要求上市公司调研活动后在年报中披露相关信息,才为学者研究实地调研活动的市场影响提供了数据支撑。在2012年7月,深交所进一步要求上市公司在调
学位
2013年,中国第一个自由贸易试验区——上海自贸区成立,以此为开端,中国深化改革开放的进程逐渐向纵深发展。到2020年9月,中国发布新增北京、湖南、安徽3个自由贸易试验区的建设方案,标志着中国目前的自贸区已扩容至21个,形成“1+3+7+1+6+3”的格局。随着中国自由贸易试验区的相继设立,自贸区的生态保护日益受到重视,其环境污染问题也显现出不同于非自贸区的差异化特征。为全面考察自贸区设立对于地区
学位
本文围绕医疗保险这一关乎人民生命健康的重大民生问题进行研究。医疗保险是一种社会保险制度,旨在补偿劳动者因疾病风险造成的经济损失,近年来,医疗参保的人数呈现出方兴未艾的趋势,但随之的医保欺诈行为也日益突出。欺诈者不断尝试新的规则和层出不穷的手段来实施非法行为,医保欺诈每年给医保基金和国家财政造成巨大损失,严重阻碍了我国医疗保险事业可持续发展。如何快速、高效、智能、准确地识别出医保欺诈行为已经成为保险
学位
近年来,家庭收入与资产规模的增长使得资产配置成为我国家庭一个日趋重要的问题,新冠疫情的发生使外生冲击对家庭资产配置的影响再次引起学界的关注。外生冲击能否影响家庭资产配置?外生冲击通过何种途径来施加影响,这种影响效应又将使家庭资产配置产生何种变化?对于此,已有的国内外研究相对有限,且现有文献在相关问题上存在争议,尚未形成一致的意见。为了研究外生冲击与家庭资产配置之间的关系,本文从时间偏好的心理学实质
学位
党的十九大报告和2017年12月举行的中央经济工作会议均明确了我国经济已由高速增长阶段转向高质量发展阶段。但高质量发展需要一套评价指标体系和度量方法以及推动高质量发展的具体措施。习近平总书记在2018年4月召开的“长江经济带发展座谈会”上要求:长江经济带应该成为促进我国高质量发展的中坚力量;在2020年举行的重庆两会上也确定高质量发展是当前和今后一段时期的战略目标。重庆是长江上游的经济中心,对引领
学位
我国在快速城市化过程中,环境污染因其扩散性和传播性导致污染治理问题跨行政区域影响明显,而我目前区域经济不平衡问题也加剧了环境污染的区域性特征,为了更好地推进区域经济协同发展,我国大力推进以城市群为基础的区域协调发展新机制,随着城市群成为中国新型城镇化的主要空间组织形态,以城市群为地理空间尺度进行环境合作治理,解决城市间共存的污染外部性问题变得愈发重要。但由于不同城市的经济和环境利益诉求不同,城市在
学位
随着电子商务的发展与大数据时代的到来,传统的营销策略已经不能满足电商的快速发展,电商越来越倾向于从海量消费者数据中挖掘用户偏好、发掘潜在客户,并提出更为客观的数字营销战略。本文基于用户画像、行为和购买等信息构建相关的用户复购预测模型,通过实证分析与比较发现基于Borderline-SMOTE过采样技术的Voting与Stacking融合模型的预测效果与稳定性最优。为降低商家的库存与营销等成本,对用
学位
能见度是生活中常见的用于衡量大气情况的指标。在众多气象指标中雾和霾对能见度的影响较大,而雾的形成与消散往往受到大气近地层的因素影响而展现出一定的规律。当能见度很低时,高速公路管理者通常要对道路进行封路处理以保证行车安全,因此能见度预测是高速公路管理部门十分关注的问题。雾景能见度的演变规律挖掘和变化趋势预测问题关注的主要难点有:对大雾的演变与气象因素的复杂数理关系的构建,基于光学和物理学对雾景图像的
学位
随着技术日异月新的发展,“大数据”时代已经逐渐来临。对于保险公司来说,如果能够利用数据挖掘技术在海量的目标客户中寻找到高价值客户,将会对公司的业务发展产生重大意义。一般来说,在海量的目标客户中,有价值的客户远少于没有价值的客户,此时客户数据集是类不平衡的。那么如何从不平衡的目标客户中寻找出高价值客户对保险公司来说已经成为了重要的问题,解决好这个问题不仅可以转变保险公司传统的营销模式来提高业绩,而且
学位