论文部分内容阅读
随着互联网的快速发展,以社交网站、微博、博客、论坛为代表的网络媒体成为互联网世界中最大的信息产生与交换渠道,同时也为谣言的生成与传播构筑了温床。网络媒体中的谣言常常以吸引流量制造恐慌为目的,因而往往带有较大的煽动性与恶意性,成为破坏网络空间秩序与环境的一大毒瘤,因此对网络谣言进行有效鉴别,具有较大的经济意义、社会意义与现实意义。在传统的谣言检测工作基础上,本文将重点研究了谣言的领域差异与谣言检测模型的的更新问题。借助迁移学习的思想,通过调整源领域的数据分布,完成对应的迁移任务。具体来说,使用深度迁移网络实现了对网络谣言的跨领域迁移,完成谣言检测模型的构建;使用ACGAN(Auxiliary Classifier Generative Adversarial Networks)架构实现了对网络谣言的跨时域迁移,完成对谣言检测模型的更新。文章创新点如下:一是提出一种基于深度迁移网络的跨领域谣言检测模型。当前的谣言检测使用统一的模型对网络谣言进行检测,忽略了谣言的领域差异。本文在尝试分领域实现对网络谣言的有效检测,对某些领域出现的标注数据不足的问题设计了深度迁移网络进行跨领域建模。假定源领域拥有标注数据,目标领域是无标注数据集,通过深度迁移网络,源领域的有标注数据可以有效迁移,帮助无标注的目标领域构建谣言检测的分类器。二是提出一种基于ACGAN架构的跨时域谣言检测模型。网络谣言的特征随时间发生变化,在谣言检测模型更新时更多考虑谣言的新特征才能有效的更新。本文在模型更新时将数据集分为历史谣言数据与当期谣言数据,通过ACGAN架构中的生成器G对历史数据进行重编码使其数据分布趋向于当期谣言,这样的跨时域数据迁移保证了模型在更新时可以更多反映网络谣言的新特征。实验表明,在跨领域的谣言检测场景下,相较于未分领域的谣言检测方法和分领域但不使用迁移学习的谣言检测方法,本文方法在F1指标上分别提升了10.3%与8.5%,同时与现有方法的对比实验可以看出,文章提出的跨领域谣言检测模型在F1值与稳定性上均优于无监督的方法;在跨时域的谣言检测中,相较于重新训练和预训练的更新方式,本文模型的F1指标分别高出5.5%与3.7%,一定程度上解决了解决谣言特征分布变化带来的谣言检测模型精度下降的问题,提升谣言检测的稳定性。