论文部分内容阅读
微博作为最具有代表性的Web2.0应用,依靠信息内容的开放性、简洁性以及信息交互的便捷性,为网民提供了一个信息发布与交流的平台。然而,由于缺少对发布内容的有效监管和审核,大量的谣言存在于微博中并广泛传播,损害了个人利益,引起了社会恐慌。因此,通过对微博进行谣言检测与分析技术研究,有助于实现谣言检测的自动化,尽早发现谣言并阻止其传播,为有关部门进行谣言治理和控制提供辅助,对于构建健康的网络生态环境具有重要的现实意义。本文研究面向微博的谣言检测与分析技术,取得了以下的研究成果:(1)针对已有的研究只选取了浅层的文本内容特征和信息传播特征,并没有挖掘出深层的文本内容特征和更有效的传播特征。另外,已有的研究都是使用单一的分类器对微博谣言进行检测,没有考虑组合多个分类器来构建集成分类器,提出了一种基于深层特征和集成分类器的微博谣言检测方法。首先,对微博情感倾向性、微博传播过程和微博用户历史信息进行特征提取得到深层分类特征;然后,利用分类特征训练集成分类器;最后,利用集成分类器对微博谣言进行检测。实验结果表明,提出的基于深层特征和集成分类器的方法能够有效提高微博谣言检测的性能。(2)针对图文不符类的微博谣言,提出了一种基于实体链接的微博谣言检测方法,通过将实体链接技术应用到微博谣言检测中具有一定的探索性意义。首先,利用实体链接技术计算图文匹配度特征;之后,为了验证从微博情感倾向性、微博传播过程和微博用户历史信息中提取的四种特征对图文不符类谣言的检测效果,利用图文匹配度特征以及这四种分类特征来重新训练分类器;最后,利用分类器对图文不符类的谣言进行检测。实验结果表明,提出的图文匹配度特征能够有效地检测出图文不符类的谣言。(3)开发了微博谣言检测分析系统,旨在展示微博用户的个人信息、微博文本内容、微博附加图片的文本内容以及微博传播过程,通过分析微博各个方面的特征来综合判断微博的可信度。