论文部分内容阅读
随着互联网的普及,越来越多的人选择在网络上阅读新闻。不同于传统新闻媒体,互联网新闻有许多新特点,如获取成本低、时效性高等特点。然而,大量包含虚假信息的新闻得以在各种社交媒体上肆意传播,其大量涌入给互联网新闻这一领域带来了严重的负面影响。因此,如何识别假新闻,并及时停止其传播,对构造一个良好的互联网氛围至关重要。假新闻检测并非易事,其甄别过程往往需要专业的背景知识。现阶段检测假新闻的主要方式是人工审核,考虑到互联网上新闻的数据量之大、传播范围之广,人工审核的方式很难解决效率低、时延性高等不可避免的问题。随着人工智能的发展,研究者们期望通过人工智能技术自动地检测假新闻。然而,互联网上传播的新闻其文本内容的长度较短,这使得传统的基于文本的假新闻检测方法难以取得满意的效果。本文研究了基于多任务学习的假新闻检测问题。互联网新闻往往会在多个社交媒体上发布与传播,这些新闻涵盖了大量不同的主题,传统的基于手工设计特征的机器学习方法很难保证设计特征集的泛化能力。考虑到在一些主题下假新闻出现的概率更大,本文挖掘了新闻的真实性和新闻的主题之间的内在关联,并提出了一个基于多任务学习的假新闻检测模型(Fake news Detection via Multi-task Learning,FDML)。FDML模型基于深度神经网络,可以自动地从新闻内容中学习到相应的特征,同时处理假新闻检测任务和主题分类任务,在学习过程中挖掘新闻真实性和新闻主题之间的内在关联,从而提升假新闻检测和主题分类的效果。互联网上新闻的文本内容普遍较短,并且假新闻通常是作者有意误导读者而撰写的,所以仅依靠新闻文本内容的假新闻检测很难取得令人满意的效果。考虑到新闻在发布时会伴随一系列上下文信息,例如新闻作者、作者历史信用表现等,这些信息可以有效的提升假新闻检测的效果。因此,FDML模型综合考虑了新闻的文本内容和新闻的上下文信息,通过结合多个特征进一步提高假新闻检测和主题分类的效果,在来自真实世界的数据集上的相关实验验证了本文提出模型的有效性。此外,本文实现了一个假新闻可视化与检测系统,提供数据收集、数据分析、假新闻检测模型部署等功能。