论文部分内容阅读
2017年4月,国家宣布成立雄安新区。雄安新区的建设对我国发展影响重大。公众对雄安新区的关注与评论是检验发展效果以及及时发现问题的重要数据来源,而目前雄安新区的研究方法主要集中在政策解读与实地调研。UGC(User Generated Content,即用户原创内容)数据是重要的舆情监测来源,而微博作为UGC数据的来源之一,是公众发布信息的重要平台。本文以新浪微博为数据源,通过对关注度及其时空分布、语义及其时空分布多尺度全方位的挖掘,发现趋势、总结规律并提出问题,为雄安新区的建设提供参考。本文以新浪微博含有“雄安新区”关键词的微博为数据源,从中国、京津冀、河北省、保定市以及雄安新区五个尺度,对2017年4月-2019年4月的数据进行深入挖掘:首先建立基础库,基础库为经过数据清洗后的微博数据以及地理空间数据;其次进行文本挖掘计算,包括Text Rank关键词计算、Bosonnlp情感计算、LDA主题挖掘,建立文本挖掘库;然后,基于基础库及文本挖掘库进行可视化计算与分析。最后,通过对话题分类各个类别的解释、统计各话题热度并对其进行时空分析,深入挖掘了公众关注的热点话题,并最终建立语义时空可视化库。研究结果表明:(1)公众关注度以距离、经济发展水平、人口数量、信息通达程度为主要驱动力;通过对负面情感比例热度分级可视化,可以有效监测负面情感异常空间并挖掘负面情感事件;词云图与图表可视化相结合的方法可从宏观上挖掘公众关注的热点内容。(2)雄安新区热度时间演变符合重大社会舆情分布特征,初期数据量爆发,随后数据量迅速下滑,并呈长尾型分布;情感以正面为主,保定市负面情感比例较高;通过高变异关键词时序分析,可以有效地挖掘社会热点事件。(3)在全国形成了京津冀高值聚集,西部、东北低值聚集,中部、东南沿海高低交错的空间关注度格局;负面情感比例形成了东部高值聚集、西部低值聚集的空间格局。(4)除保定市外,关注度变化率呈“N”字形走势,变化率越高说明本月关注度变动越大,高变化率值可以揭示高关注度热点事件;在全国尺度,公众关注热点内容较为稳定,变化较小。而在京津冀、河北省、保定尺度公众关注内容更迭相对频繁,且词语变化幅度有上升趋势,这表明公众关注内容在逐渐分散。(5)公众关注的热点话题可以分为25个二级话题以及7个一级话题,其中一级话题为外界观点、基础设施、功能定位、房地产、政府工作、绿色宜居和智慧城市。而二级话题中,规划建设工作主题关注度最高。(6)通过对各话题趋势的挖掘,可以发现公众关注热点主题的变化规律,如在保定尺度,白洋淀生态、创新发展新模式话题关注度在增长,这表现了保定市对雄安新区创新、保护生态可持续发展的日益重视;通过对各主题热度空间可视化,可以直观发现各城市各主题的空间热度。将各城市分为热点区域型、重点突出型以及零热点型。本文通过构建多尺度时空间热度及格局计算方法、话题分类及时空分析方法,形成了一套完整有序可扩展的社会感知模型。应用此模型对雄安新区进行全方位感知,可以有效地展示雄安新区关注度时空规律、挖掘公众关注热点内容。为雄安新区智慧城市建设、舆论疏导、政策制定提供参考。为对其他社会热点事件进行社会感知提供了模式参考。同时,也为媒介地理学的发展提供了新思路。