论文部分内容阅读
20世纪90年代,钱学森教授就曾指出,社会是一个特殊的开放复杂巨系统。传统的研究方法不足以全面的、系统的研究社会问题,综合集成方法论是为了解决这一类的开放复杂巨系统问题而提出来的。本文在综合集成方法论的思想指导下,立足于大数据时代的特征,从网络搜索数据入手开发研究社会问题的社会热点以及社会风险水平的分析系统。
国内外的最新研究进展表明,网络搜索数据与诸多社会、经济行为存在很高的相关关系。搜索数据能够反映用户的关注和需求,映射用户现实生活中的行为趋势和规律。并且,网络搜索数据相对传统数据可以相对消除统计“时滞”;还可以消除用户的“隐私”顾虑,从而获得更加真实的数据。
本文从百度新闻热搜词入手,开发了一个用来分析社会热点和社会风险水平的系统--热词视点1.0。首先是利用网络爬虫抓取数据、解析网页析取百度新闻热搜词、利用XML技术存储数据,其次对百度新闻热搜词进行切词和标注风险类别的处理,构建百度新闻热搜词数据库,在其基础之上开发了一些分析监控的功能。主要分为三类,第一类是关于社会热点事件的描述性统计分析,展示形式有列表形式、图形形式等,第二类是基于交互式iView和CorMap分析的结构探测的可视化分析,第三类是基于风险分类的社会风险水平数据分析。
iView分析和CorMap分析是明显不同于传统的描述性统计分析的,它提供可视化分析结果,给出基于百度新闻热搜词而获取的从不同视角的关于社会热点事件的宏观视角。风险水平的分析更是利用当下互联网搜索数据的优势,由民众搜索数据的自动汇集来决定指标的权重,解决了传统方法由专家判定权重缺少说服力的问题。
热词视点1.0系统的研究意义在于提供一个研究社会热点事件的全面、快捷的视角。