论文部分内容阅读
我国工业的飞速发展,消耗了巨额环境资源,工业废水、废气、固废等排放使得环境污染问题与日俱增。传统的发现污染问题的方式,例如群众举报、物理仪器监测等已经无法处理日益增多的环境问题,需要覆盖范围更广、组建成本更低的环境监测数据。社交网络,作为公众表达民意的重要渠道,提高了公民参与政治经济生活讨论的积极性和网络问政的便捷性,已经成为人们进行舆论监督的重要平台。因此,社交网络的发展及其环境大数据的支持为我们监测环境状况提供了一个新的突破口。本文基于社交网络中目标事件的检测机制,采用微博用户作为“社交网络传感器”,针对实时微博数据流进行文本处理及分类,筛选出有效反映空气质量状况的“雾霾”信号,实现了计算“雾霾”发生概率的预测模型以及空气质量指数(AQI)的趋势预测模型。本文的工作主要包括以下几个方面:1.获取目标事件“雾霾”相关微博语料。以“雾霾”为关键词进行全网微博搜索,设计针对于微博站点页面信息结构的分布式爬虫,对搜索结果相关微博进行抽取并存储,爬取内容包括用户名、微博文本内容、微博发布时间、发布终端、发布地点等。2.针对爬虫抓取数据和空气质量指数(AQI)之间的关系,本文创造性地提出了“雾霾”指示器自动分类方法和基于“微博活跃指数”的“雾霾”预警模型。实验结果表明,本文提出的方法可以利用贝叶斯分类器自动分类“雾霾”相关微博,有效地识别出“雾霾”信号,雾霾预警模型可以全方位地考虑微博平台活跃度的影响,并在一定程度上避免平台“睡眠期”对预测结果的影响。3.为了解决微博数据的信息单一、表达缺乏标准的问题,本文应用了一种根据文本数据库中的关系识别对事件三元组重新建模的事件Embedding网络,其可以将高维稀疏的词Embedding向量转化成一个低维稠密的事件向量,并基于此实现卷积神经网络(CNN)的AQI趋势预测问题。实验结果表明,相比单纯使用词Embedding作为文本的特征,事件Embedding可以刻画出文本中的实体及关系。除此之外,与普通的前馈神经网络(NN)相比,基于CNN的预测模型可以提取出最具代表性的全局和局部特征,建立微博事件与AQI变化趋势之间的联系,从而使预测结果更加准确。