论文部分内容阅读
社交网络的出现和不断发展,使得由社交网络产生的数据量不断增大,信息量也不断丰富。基于社交网络进行的数据分析和挖掘的应用越来越多。大数据已经渗透到生活的方方面面,若能有效的利用大数据将会为生活提供更多便利。公共卫生事业作为社会发展的根基与每个人生活息息相关,影响整个社会的稳定和发展。但是,目前对于流行病的监控手段主要依赖临床数据。随着社交网络的普及和数据多样化,我们可以通过分析和挖掘社交网络中相关数据对特定病症进行监控及预测,在保证数据的实时性基础上,可以及时的进行监控和预测,为公共卫生事业提供较早的决策支持和帮助。本文中的社交网络数据主要以新浪微博数据作为主要数据源,以PM2.5数据作为辅助,在国内范围内,针对流行性感冒进行监控和预测。文章考虑流感的潜伏期、发病期等时间因素的影响,以及流行病的传播模式,结合目前数据,分析和研究基于社交网络的流感监控和预测的方法。针对内容繁杂的社交网络数据,本文首先对源数据进行数据预处理,考虑流感的病症特点主要采用关键字过滤技术,获取与流感相关的用户信息,并分别采用KNN分类、朴素贝叶斯分类(NB)和支持向量机(SVM)分类三种分类算法进行比较,将分类效果最好的算法得到的结果集作为研究的核心数据。在监控方面,将核心数据与疾病控制中心(CDC)数据在时间和空间粒度上进行对比,验证社交网络数据的有效性;并考虑空气质量对流感的影响,将PM2.5数据与社交数据进行对比,证明PM2.5数据与流感的关联关系,从而证明通过对社交网络数据进行分析可以用来监控流感现状。在预测方面,主要使用动态贝叶斯算法结合隐马尔科夫模型,考虑社交网络中的社交关系和所处地理位置对流感传播的影响,及流感的周期性和一段时间内的PM2.5指数对流感发病率的影响,将这些影响因素作为模型中考虑的主要参数,在数据量一定的基础上,进行交叉实验对模型的预测效果进行评估。