论文部分内容阅读
虚假网络舆情不仅混淆公众视听,而且极易引发不良社会心态、激化社会矛盾,影响社会和谐稳定。针对虚假网络舆情,除加强舆情领域的法律和制度建设外,有必要采用技术手段对其进行监测和干预。面向以网络论坛为主要平台的虚假网络舆情快速检测与有效抑制的应用需求,本文系统深入地研究了基于网络论坛的虚假舆情检测与抑制算法。主要贡献如下:1.提出了一种基于节点影响力的观点传播与舆情形成模型。该模型以French-DeGroot模型为基础,充分考虑了网络中节点观点变化的连续性、节点间连接强度的差异性和时变性。实验结果表明,该模型能够有效描述网络论坛中用户观点的传播和舆情形成的整个过程,并且可以获取所构建网络的各离散时间点的用户观点剖面及其他统计特性。2.提出了一种基于噪音过滤和话题聚类的热点话题快速发现方法。该方法首先对采集到的论坛数据进行预处理,建立以主帖标题为索引的候选话题集;然后通过定义的热度和回复加速度指标对集合进行多重过滤;最后采用本文提出的聚类算法进行话题聚类获取突发性热点话题。实验结果表明:该方法对突发性热点话题发现的精确率、召回率和F1均达到80%以上,且在信息处理效率方面优势明显;同时,该方法还可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足。3.提出了一种将虚假网络舆情的检测转化为热点话题对应四元组分类的研究方法。通过分析由网络水军推动的热点话题在其潜伏期内的特征,将热点话题定义为包含回帖指数、新注册ID指数、简单回帖指数、ID离散指数的四元组。由于正常的四元组(网民自发发帖、跟帖形成的热点话题)与异常的四元组(网络水军推动的热点话题)在其特征元素上的差异,提出了基于SVM的积极学习算法,该算法对于候选的热点话题样本集,主动从中选取对当前分类函数不确定程度最大的样本进行训练,进而重新设计新分类函数,从而达到以较小的样本标注数实现较高的分类精度。实验结果表明,该算法的检测精度明显高于常规的综合指标法,并且在标注较少样本的情况下,算法的检测效率和检测精度亦优于常规的SVM算法。4.提出了一种基于网络论坛用户行为异质性和SEIR病毒传播模型的舆情传播模型。该模型充分考虑到了现实网络论坛中用户间的亲密和信任程度、所处的状态以及状态间的转换关系。通过对模型本身以及信任机制对模型影响的仿真和数值分析,发现模型不仅能够真实描述网络论坛中舆情的传播与演化过程,而且在模型中引入信任机制能够对舆情信息的影响力、传播速率和影响范围起到有效的抑制作用。5.提出了一种基于高影响力用户免疫的网络论坛舆情抑制算法。该算法以SEIR谣言传播模型的研究结论为基础,采用迭代的方式,不断遍历网络中所选节点和其邻接节点中影响力最大的节点,对其逐个进行目标免疫,即断开它们在网络中的连边,从而达到舆情信息抑制的目的。实验表明,该算法与熟人免疫和目标免疫算法相比,在面对大规模舆情网络且对网络拓扑结构不够熟悉的情况下,在抑制舆情信息传播、扩散和影响力方面均具有一定的优势。