论文部分内容阅读
当前,中国面临严重的环境污染问题,其中空气质量问题日益突出,且已经严重影响到人们的身体健康、生活水平甚至国民经济的发展。空气质量的定性、定量分析能够帮助公众了解现状,为政府制定环境政策并采取有效措施提供科学依据,从而达到进一步改善空气质量的目的。而且空气质量问题一直以来都是微博热搜话题。根据LDA網络舆情,从微博文本中提出主要观点,可以有效地扩大个人的思想和认知,同时为舆论监督和指导提供了坚实的基础。
一、实证分析
(一)全国主要城市2016年空气质量分析
首先,根据2016年1月1日至2017年1月1日全国367个城市平均AQI值绘制折线图。可以看出,1月份平均AQI较高,2月到10月总体呈下降趋势,空气质量相对较好。11月份到12月份急剧上升,达到中度污染甚至重污染,这可能是受到北方地区进入供暖期后,煤炭等能源的燃烧增多的影响。紧接着研究发现我国六项空气污染物指标中首要污染物为PM2.5,其次为 、PM10、 以及复合污染物。最后,收集2014年、2015年和2016年中国五大主要城市(北京、上海、广州、沈阳、成都)的PM2.5每小时观测值。可知从2014 年到20016年,五个主要城市的PM2.5 观测值均有所减小,且北京下降幅度最大。总体来看,我国PM2.5 治理成效明显。
(二)基于主题模型的新浪微博数据舆情分析
本文数据来自新浪微博用户“人民日报”和“环保北京”。
1.语料预处理。很多用户的微博内容字数较少,且部分含有大量无意义的信息,因此需要对数据进行筛选。本文筛选标准为:删除字数少于两个的、带有广告等与话题无关的微博,保留信息量较大的原创微博。筛选过后,对得到的470条微博数据进行预处理,利用R软件进行分词。首先提取名词、动词等具有实际意义的词语,再去除标点、停用词及数字,构建词文档矩阵,矩阵中共包括22305个分词。
2.结果分析。根据得到的词文档矩阵,初步可以看出出现频率较高的词语有口罩、治理、北京、污染等。其中,口罩是出现频率最高的词语,以及防毒面具等关键词说明在空气质量问题上人们对空气质量带来的个人健康问题最为重视,尤其在2016年末,空气污染最为严重的时候,口罩在热点话题中的位置居高不下。还可以看出公众对政府治理措施的高度关注,认为政府是否作为、监管力度是否足够在此事件中的影响很大。此外,关键词房价值得注意,有国外学者认为房地产价格与空气质量有一定的相关关系,但是国内此方面的研究还有待深入。
然后使用R软件中的ida程序包进行训练,使用快速压缩Gibbs抽样方法。主题个数k对LDA模型的最终结果影响很大,经过反复实验比较和判断,最终确定主题个数为5,参数 和 的初始值为0和1。实验结果如下:
由表1可知,每个topic的关键词都能较为清楚地反映主题的内容。通过对比LDA模型提取的热点主题与用于建模的470条微博内容,可以认为LDA模型在提取“空气质量”热点话题主题的应用上有较好的效果。5个Topic的关键词反映的主题内容表明公众对空气质量、身体健康、情绪状态、污染地区、治理措施的关注。综上所述,LDA模型在空气质量这一热点微博主题挖掘中呈现了较好的效果,但是仍需进一步的完善和改进。
二、结语
从整体上看,2016年我国空气质量呈现较为良好状态,在时空上有较为明显的分布特征,由内陆向沿海地区、由北方向南方空气质量呈变好趋势,夏天空气质量相对较好,且高污染城市易对周边地区产生影响。第四季度特别是冬季的空气质量较差,且易出现极端污染情况。我国的首要污染物为PM2.5,2016年在东北、华北地区对PM2.5的治理效果显著,由于原本空气质量污染严重,故采取治理措施后效果显著。另外,LDA模型在空气质量微博评论主题挖掘这一实际问题中呈现了较好的效果。模型挖掘得到公众对于空气质量这一热点主题的关注主要表现在空气质量情况、污染严重城市、自我防护措施等方面。(作者单位为山西财经大学统计学院)
一、实证分析
(一)全国主要城市2016年空气质量分析
首先,根据2016年1月1日至2017年1月1日全国367个城市平均AQI值绘制折线图。可以看出,1月份平均AQI较高,2月到10月总体呈下降趋势,空气质量相对较好。11月份到12月份急剧上升,达到中度污染甚至重污染,这可能是受到北方地区进入供暖期后,煤炭等能源的燃烧增多的影响。紧接着研究发现我国六项空气污染物指标中首要污染物为PM2.5,其次为 、PM10、 以及复合污染物。最后,收集2014年、2015年和2016年中国五大主要城市(北京、上海、广州、沈阳、成都)的PM2.5每小时观测值。可知从2014 年到20016年,五个主要城市的PM2.5 观测值均有所减小,且北京下降幅度最大。总体来看,我国PM2.5 治理成效明显。
(二)基于主题模型的新浪微博数据舆情分析
本文数据来自新浪微博用户“人民日报”和“环保北京”。
1.语料预处理。很多用户的微博内容字数较少,且部分含有大量无意义的信息,因此需要对数据进行筛选。本文筛选标准为:删除字数少于两个的、带有广告等与话题无关的微博,保留信息量较大的原创微博。筛选过后,对得到的470条微博数据进行预处理,利用R软件进行分词。首先提取名词、动词等具有实际意义的词语,再去除标点、停用词及数字,构建词文档矩阵,矩阵中共包括22305个分词。
2.结果分析。根据得到的词文档矩阵,初步可以看出出现频率较高的词语有口罩、治理、北京、污染等。其中,口罩是出现频率最高的词语,以及防毒面具等关键词说明在空气质量问题上人们对空气质量带来的个人健康问题最为重视,尤其在2016年末,空气污染最为严重的时候,口罩在热点话题中的位置居高不下。还可以看出公众对政府治理措施的高度关注,认为政府是否作为、监管力度是否足够在此事件中的影响很大。此外,关键词房价值得注意,有国外学者认为房地产价格与空气质量有一定的相关关系,但是国内此方面的研究还有待深入。
然后使用R软件中的ida程序包进行训练,使用快速压缩Gibbs抽样方法。主题个数k对LDA模型的最终结果影响很大,经过反复实验比较和判断,最终确定主题个数为5,参数 和 的初始值为0和1。实验结果如下:
由表1可知,每个topic的关键词都能较为清楚地反映主题的内容。通过对比LDA模型提取的热点主题与用于建模的470条微博内容,可以认为LDA模型在提取“空气质量”热点话题主题的应用上有较好的效果。5个Topic的关键词反映的主题内容表明公众对空气质量、身体健康、情绪状态、污染地区、治理措施的关注。综上所述,LDA模型在空气质量这一热点微博主题挖掘中呈现了较好的效果,但是仍需进一步的完善和改进。
二、结语
从整体上看,2016年我国空气质量呈现较为良好状态,在时空上有较为明显的分布特征,由内陆向沿海地区、由北方向南方空气质量呈变好趋势,夏天空气质量相对较好,且高污染城市易对周边地区产生影响。第四季度特别是冬季的空气质量较差,且易出现极端污染情况。我国的首要污染物为PM2.5,2016年在东北、华北地区对PM2.5的治理效果显著,由于原本空气质量污染严重,故采取治理措施后效果显著。另外,LDA模型在空气质量微博评论主题挖掘这一实际问题中呈现了较好的效果。模型挖掘得到公众对于空气质量这一热点主题的关注主要表现在空气质量情况、污染严重城市、自我防护措施等方面。(作者单位为山西财经大学统计学院)