论文部分内容阅读
摘 要:网络舆情是网民对社会问题不同看法的舆论,网络舆情事件如果处理不当,极有可能诱发民众的不良情绪,进而对社会稳定构成威胁。拟构造动态的网络舆情演化模型:每经过一个时间尺度,重新分析一次网络舆情序列的统计特征;根据其统计特征,选择合适的预测模型来建立模型,以准确掌握网络舆情的演化规律。
关键词:网络舆情 时间序列 人口模型 灰色预测
一、引言
根据CNNIC发布的《第39次中国互联网络发展状况统计报告》,截至2016年12月,互联网普及率达53.2%,标志着我国已成为一个互联网大国。实践证明,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的作用。同时,网络舆情突发事件如果处理不当,极有可能引发群众的违规和过激行为,进而对社会稳定构成威胁。因此,探究网络舆情的演化规律对于危机应对、舆情引导有着重要的研究价值和现实迫切性。中国股市在时隔8年后的2015年又迎来了新一轮的牛市及下半年的股灾,上半年股市的疯涨在互联网舆情的传播下几乎呈现“人人炒股”的趋势,结果导致了在下半年股灾发生后股民的猝不及防,最终引起了民众恐慌和社会动荡。据百度指数统计数据显示,随着时间的推移,股市指数的涨跌和政策舆情事件相互影响,形成多个关键节点。因此能从股市舆情的变化中探寻出一定的股市规律性,对于社会事件的发展有一定的先导作用。
二、文献综述
网络舆情是近年来的研究热点,各专家学者都期望通过网络舆情演变方式的规律研究来对社会产生一个良好的热点导向,为政府提供支持性依据。分别使用回归模型和ARIMA模型来研究网络舆情,并得到了相应的规律性结论。通过仿真方法重点研究了传播内容以及网民个体属性对舆情演化传播的影响。此外,在国外也有许多这方面的研究,分别使用元胞自动机模型与Gompertz曲线模型研究舆论扩散规律。针对个人在舆论传播中的特性,建立了基于复杂网络的网络舆情演化模型。国内外对网络舆情演变的研究远不止上述的文献,但大多数研究都使用单一模型对网络舆情的演化规律进行研究。这往往使不同模型研究之间的兼容性变差,甚至结论相悖。结合上述研究,本文拟构造动态的网络舆情演化模型:每经过一个时间尺度,重新分析一次网络舆情序列的统计特征;根据其统计特征,选择合适的预测模型来建立模型,以准确掌握网络舆情的演化规律。
三、动态模型
1.动态模型简介。事件舆论量的产生存在一定的规律性,其中的规律是通过前期的舆论情况而定的,而根据已有的研究可知序列模型短期预测更为精确。因此在预测的过程逐步更新数据进行短期预测,使得结果更为精确。此外,假设有一个模型库,可以视作是一个存储数学模型的“大仓库”,通过构建模型库并实现自动化选取较好模型的目的,即模型更加准确。作为统一度量模型好坏的偏差率,是构建最优动态模型的关键。采用数学定义得到偏差率,公式如下:
2.单一模型简介。通过查阅相关资料发现,预测分析模型共有9种。而根据预测范围、预测准确度以及预测所需数据量大小剔除了几种模型,最终选择以下4类模型。
2.1 马尔萨斯模型:在孤立的生物群体中,生物总数的变化率与生物总数成正比,但这个模型存在一定的缺陷:忽略了群体个体之间的差异。
2.2 Logistic模型:又称阻滞增长模型,其原理是考虑到自然资源、环境条件等因素对人口增长的阻滞作用,对指数增长模型的基本假设进行修改后得到的。
2.3 时间序列模型:是根据客观事物发展的连续规律性,运用过去的歷史数据,进一步推测未来的发展趋势。但时间序列分析法对于短、近期预测比较显著。
2.4 灰色预测模型:是一种对含有不确定因素的系统进行预测的方法。用观察到的反映预测对象特征的时间序列来构造灰色预测模型,预测未来的特征量。
四、应用及实例
1.数据来源及数据处理。选取了自2015年5月26日至2015年9月3日“沪深300”的百度指数搜索量(即用户关注度)作为研究样本,数据来源于百度指数官网。该样本包括了网络舆情传播的形成期、高潮期和消退期三个阶段。建立搜索量是关于时间函数,需要对其进行累加得到所需的变量数据。累加数据如图4-1。为了建模的方便,之后会使用时间变量t=1,2,3…来替换具体日期。
2.单一模型分析。从前9期搜索量开始建模(除ARIMA模型),分别应用到马尔萨斯模型、Logistic模型、ARIMA模型以及灰色预测这四种模型,得到各个模型的预测值、初始值和增长率等各项统计指标,并预测出下一期的搜索量,直到迭代输出92期所有的预测结果。其中马尔萨斯模型将t值代入模型得到的预测值与真实值比较。可以显著看出随着时间的增长,预测值与真实值的偏离程度不断扩大。说明其拟合效果随着期数的增加逐渐变差。由于ARIMA模型不适用于少量数据的预测,因此通过计算筛查,从第14期开始进行舆情预测。虽然预测值走势总体上是和实际相符合的,但也存在偏差较大的预测区间。灰色预测模型的预测结果虽然最小偏差率仅0.21极其接近实际值,但其最大偏差率为27.06,同样体现了预测整体并不完美,这也恰恰说明,使用单一拟合预测模型是很难达到最优效果的。
3.最优动态模型。选取了符合股灾舆情数据的四个模型组合成一个模型库,并建立统一的评价标准。模型库根据不同时间段的舆情数据自动化建模,直到得到评价指数最高的一个模型,得到的模型为下一期舆情演化预测。以“沪深300”事件为例,将其产生的搜索量数据应用到建立完整的模型库。通过偏差率进行每一期最优模型的选择,将最小偏差率的模型作为下一期的预测模型。整个动态模型的偏差率保持在6%左右,最大偏差率出现在第37期,达到了12%,最小的偏差接近于0。由最优动态模型预测出的预测值,如图4-2。其是由3种不同预测模型组合而成的,如第14、15期预测模型为Logistic模型,而第16期则是ARIMA模型,到了第36期灰色预测成为了预测模型。因此最优动态模型由41期Logistic模型、44期时间序列模型以及7期灰色预测模型。 五、结语
2015年股市如此的“异常”,一方面大大挫伤了股民的积极性,另一方面也反映了中国股市监管制度不健全的弊端。虽然政府已经采取了一系列的举措进行干预。但由于政策干预不及时、成效过慢等原因,导致了社会动荡。作为网络公民的我们,在突发事件到来之际,不应该在网上传播一些不正确的事实和谣言等。政策的制定离不开技术的支持,技术上越快的反应速度以及越准确的预测精度,才可以将网络舆情的讹传危害性降到最低。本文建立动态模型得到的预测结果,可以显著发现其在预测网络舆情演化时速度和精度方面的优势。因此,为网络舆情的发展及预测做出了一定的贡献,为网络舆情实时监测技术提出保障。此外,动态模型的实时性也能为政府定位事件的重要节点提供依据,保证国家相关部门政策的时效性。
参考文献:
[1] 杨畅,苏国强,兰月新,何永红. 基于统计回归模型的突发事件网络舆情研究[J]. 武警学院学报,2014,(07):80-83.
[2] 滕文杰. 时间序列分析法在突发公共卫生事件网络舆情分析中的应用研究[J]. 中国卫生统计,2014,06:1071-1073.
[3] 朱毅华,张超群. 基于影响模型的网络舆情演化与传播仿真研究[J]. 情报杂志,2015,(02):28-36.
[4] Yao C Y. The Application Study of Simulation Model Based on Cellular Automata in the Evolution of Internet Public Opinion[J]. Applied Mechanics & Materials, 2012, 198-199:828-832.
[5] Cao W, Fu W, Lan Y, et al. The Research about Diffusion Law and Countermeasures of Internet News Public Opinion Based on Gompertz Curve Model[J]. Journal of Modern Information, 2015.
[6] Sun S, Zhang Y, Zhang J, et al. Study on Evolution Model of Internet Public Opinion Based on Complex Network[C]// International Conference on Electronics, Network and Computer Engineering. 2016.
[7] 百度.百度搜索指數.沪深300搜索量,http://index.baidu.com/?tpl=trend&word=%CE%BA%D4%F2%CE%F7.
[8] 中国互联网信息中心.第39次中国互联网网络发展状况统计报告,http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/t20150722_52624.htm.
关键词:网络舆情 时间序列 人口模型 灰色预测
一、引言
根据CNNIC发布的《第39次中国互联网络发展状况统计报告》,截至2016年12月,互联网普及率达53.2%,标志着我国已成为一个互联网大国。实践证明,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的作用。同时,网络舆情突发事件如果处理不当,极有可能引发群众的违规和过激行为,进而对社会稳定构成威胁。因此,探究网络舆情的演化规律对于危机应对、舆情引导有着重要的研究价值和现实迫切性。中国股市在时隔8年后的2015年又迎来了新一轮的牛市及下半年的股灾,上半年股市的疯涨在互联网舆情的传播下几乎呈现“人人炒股”的趋势,结果导致了在下半年股灾发生后股民的猝不及防,最终引起了民众恐慌和社会动荡。据百度指数统计数据显示,随着时间的推移,股市指数的涨跌和政策舆情事件相互影响,形成多个关键节点。因此能从股市舆情的变化中探寻出一定的股市规律性,对于社会事件的发展有一定的先导作用。
二、文献综述
网络舆情是近年来的研究热点,各专家学者都期望通过网络舆情演变方式的规律研究来对社会产生一个良好的热点导向,为政府提供支持性依据。分别使用回归模型和ARIMA模型来研究网络舆情,并得到了相应的规律性结论。通过仿真方法重点研究了传播内容以及网民个体属性对舆情演化传播的影响。此外,在国外也有许多这方面的研究,分别使用元胞自动机模型与Gompertz曲线模型研究舆论扩散规律。针对个人在舆论传播中的特性,建立了基于复杂网络的网络舆情演化模型。国内外对网络舆情演变的研究远不止上述的文献,但大多数研究都使用单一模型对网络舆情的演化规律进行研究。这往往使不同模型研究之间的兼容性变差,甚至结论相悖。结合上述研究,本文拟构造动态的网络舆情演化模型:每经过一个时间尺度,重新分析一次网络舆情序列的统计特征;根据其统计特征,选择合适的预测模型来建立模型,以准确掌握网络舆情的演化规律。
三、动态模型
1.动态模型简介。事件舆论量的产生存在一定的规律性,其中的规律是通过前期的舆论情况而定的,而根据已有的研究可知序列模型短期预测更为精确。因此在预测的过程逐步更新数据进行短期预测,使得结果更为精确。此外,假设有一个模型库,可以视作是一个存储数学模型的“大仓库”,通过构建模型库并实现自动化选取较好模型的目的,即模型更加准确。作为统一度量模型好坏的偏差率,是构建最优动态模型的关键。采用数学定义得到偏差率,公式如下:
2.单一模型简介。通过查阅相关资料发现,预测分析模型共有9种。而根据预测范围、预测准确度以及预测所需数据量大小剔除了几种模型,最终选择以下4类模型。
2.1 马尔萨斯模型:在孤立的生物群体中,生物总数的变化率与生物总数成正比,但这个模型存在一定的缺陷:忽略了群体个体之间的差异。
2.2 Logistic模型:又称阻滞增长模型,其原理是考虑到自然资源、环境条件等因素对人口增长的阻滞作用,对指数增长模型的基本假设进行修改后得到的。
2.3 时间序列模型:是根据客观事物发展的连续规律性,运用过去的歷史数据,进一步推测未来的发展趋势。但时间序列分析法对于短、近期预测比较显著。
2.4 灰色预测模型:是一种对含有不确定因素的系统进行预测的方法。用观察到的反映预测对象特征的时间序列来构造灰色预测模型,预测未来的特征量。
四、应用及实例
1.数据来源及数据处理。选取了自2015年5月26日至2015年9月3日“沪深300”的百度指数搜索量(即用户关注度)作为研究样本,数据来源于百度指数官网。该样本包括了网络舆情传播的形成期、高潮期和消退期三个阶段。建立搜索量是关于时间函数,需要对其进行累加得到所需的变量数据。累加数据如图4-1。为了建模的方便,之后会使用时间变量t=1,2,3…来替换具体日期。
2.单一模型分析。从前9期搜索量开始建模(除ARIMA模型),分别应用到马尔萨斯模型、Logistic模型、ARIMA模型以及灰色预测这四种模型,得到各个模型的预测值、初始值和增长率等各项统计指标,并预测出下一期的搜索量,直到迭代输出92期所有的预测结果。其中马尔萨斯模型将t值代入模型得到的预测值与真实值比较。可以显著看出随着时间的增长,预测值与真实值的偏离程度不断扩大。说明其拟合效果随着期数的增加逐渐变差。由于ARIMA模型不适用于少量数据的预测,因此通过计算筛查,从第14期开始进行舆情预测。虽然预测值走势总体上是和实际相符合的,但也存在偏差较大的预测区间。灰色预测模型的预测结果虽然最小偏差率仅0.21极其接近实际值,但其最大偏差率为27.06,同样体现了预测整体并不完美,这也恰恰说明,使用单一拟合预测模型是很难达到最优效果的。
3.最优动态模型。选取了符合股灾舆情数据的四个模型组合成一个模型库,并建立统一的评价标准。模型库根据不同时间段的舆情数据自动化建模,直到得到评价指数最高的一个模型,得到的模型为下一期舆情演化预测。以“沪深300”事件为例,将其产生的搜索量数据应用到建立完整的模型库。通过偏差率进行每一期最优模型的选择,将最小偏差率的模型作为下一期的预测模型。整个动态模型的偏差率保持在6%左右,最大偏差率出现在第37期,达到了12%,最小的偏差接近于0。由最优动态模型预测出的预测值,如图4-2。其是由3种不同预测模型组合而成的,如第14、15期预测模型为Logistic模型,而第16期则是ARIMA模型,到了第36期灰色预测成为了预测模型。因此最优动态模型由41期Logistic模型、44期时间序列模型以及7期灰色预测模型。 五、结语
2015年股市如此的“异常”,一方面大大挫伤了股民的积极性,另一方面也反映了中国股市监管制度不健全的弊端。虽然政府已经采取了一系列的举措进行干预。但由于政策干预不及时、成效过慢等原因,导致了社会动荡。作为网络公民的我们,在突发事件到来之际,不应该在网上传播一些不正确的事实和谣言等。政策的制定离不开技术的支持,技术上越快的反应速度以及越准确的预测精度,才可以将网络舆情的讹传危害性降到最低。本文建立动态模型得到的预测结果,可以显著发现其在预测网络舆情演化时速度和精度方面的优势。因此,为网络舆情的发展及预测做出了一定的贡献,为网络舆情实时监测技术提出保障。此外,动态模型的实时性也能为政府定位事件的重要节点提供依据,保证国家相关部门政策的时效性。
参考文献:
[1] 杨畅,苏国强,兰月新,何永红. 基于统计回归模型的突发事件网络舆情研究[J]. 武警学院学报,2014,(07):80-83.
[2] 滕文杰. 时间序列分析法在突发公共卫生事件网络舆情分析中的应用研究[J]. 中国卫生统计,2014,06:1071-1073.
[3] 朱毅华,张超群. 基于影响模型的网络舆情演化与传播仿真研究[J]. 情报杂志,2015,(02):28-36.
[4] Yao C Y. The Application Study of Simulation Model Based on Cellular Automata in the Evolution of Internet Public Opinion[J]. Applied Mechanics & Materials, 2012, 198-199:828-832.
[5] Cao W, Fu W, Lan Y, et al. The Research about Diffusion Law and Countermeasures of Internet News Public Opinion Based on Gompertz Curve Model[J]. Journal of Modern Information, 2015.
[6] Sun S, Zhang Y, Zhang J, et al. Study on Evolution Model of Internet Public Opinion Based on Complex Network[C]// International Conference on Electronics, Network and Computer Engineering. 2016.
[7] 百度.百度搜索指數.沪深300搜索量,http://index.baidu.com/?tpl=trend&word=%CE%BA%D4%F2%CE%F7.
[8] 中国互联网信息中心.第39次中国互联网网络发展状况统计报告,http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/t20150722_52624.htm.