论文部分内容阅读
2020年,新型冠状病毒肺炎(COVID-19)疫情全球蔓延。有关新冠病毒的来源、传播等问题的报道和讨论中掺杂了许多不符事实的说法。在社交媒体和一些传统媒体上,谣言和阴谋论甚嚣尘上。谣言的传播不仅会影响政府的应急处置,造成经济损失,还可能会加剧群体负面情绪,引起恐慌,甚至对群众乃至社会造成了严重的影响。因此,网络谣言的检测识别具有重要的现实意义。本论文的研究目标为实现微博/推特等社交网络的谣言检测。目前为止,中外学者提出了一系列的深度学习方法并结合特征工程,将谣言检测转化为分类问题。得益于大卷积和更大的感受野的优势,这些谣言检测方法取得了显著的成效。然而,当这些算法在拥有大量评论及转发量的社交网络平台上应用时,往往存在以下两个方面的问题:1)社交网络平台的推文通常附带大量的转发和评论,而转发和评论内容往往为确定原推文是否是谣言起着重要的作用。同时,随着时间的推移,后续评论内容对原始推文是否是谣言的导向性更强。尽管原始推文后续的所有评论内容并不都具有明显的情感倾向,但是所有的评论内容作为一个整体有助于判断原始推文是否是谣言。在这些评论中,一些内容是在陈述事实,一些只是表达主观看法,而有些评论内容则具有明显的分辨谣言的倾向。原始推文及其所有的评论内容是一个不可分割的整体,能否对这个整体进行有效地建模,直接关系到谣言检测的最终效果。当前主流的长短期记忆网络(Long Short-Term Memory,LSTM)及其各种改进模型虽然能准确提取某一条文本的特征,但是并不能够将同一个发帖人的推文与其所有的评论内容进行有效地关联。2)微博、推特等社交网站上的真实谣言评论内容长短不一,有时长度相差很大。如果简单的直接利用LSTM及其改进模型进行单独建模,易出现“对齐灾难”,网络会学习非常多的无用信息,这在一定程度上影响了这些算法的建模能力。社交网络平台的推文通常具有如下特点:每一个原始推文都会附带大量的转发和评论,并且每一条评论都具有先后时间关系和不同的感情倾向。例如,对于某用户发表的一条虚假谣言,在推文刚发布的初期,由于信息的不对称性和缺乏对相关专业领域知识的了解,其他用户的评论可能大多表现为相信、恐慌、消极等,从而深受误导。然而随着时间的推移,人们从各渠道掌握到越来越多的真实情况,质疑之声逐渐代替了早期盲从、恐慌的情绪。再后来,随着官方和其他媒体的讨论与报道,越来越多的用户能够根据现有的真实信息判断出推文的真假,并针对推文的真实性发出新的评论,这即是所谓的“谣言止于智者”的现象。基于上述特点,本文提出了基于句子相对位置和句子内部各分词相对位置的嵌套LSTM算法(Sentence and Words Position Embedding Based on Nested LSTM,SPNLSTM)。SPNLSTM 算法主要分为以下三个部分:1)句子间相对位置建模对于同一条原始推文,不同用户给出的评论内容长短不一,有的评论内容较多,但有的仅有一句话。不同句子之间具有语义上的强关联性,即具有一定的上下文语境关系。该部分对同一段文本的不同句子进行建模,能有效挖掘句子间隐含的语义关系。2)句子内部各分词相对位置建模该部分负责挖掘句子内部各分词之间的上下文语义关系,提取句子最为有效的语义特征。3)原始推文及其所有评论特征的平行嵌套建模该部分将每一条原始推文及其所有的评论划分成若干段,每一段文本具有严格的时间先后关系,同时文本的长度固定。“平行嵌套模型”的基本单元是双向长短时神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM),输入的则是经过多重采样后划分的时序相关性特征文本。基于SPNLSTM算法的谣言检测系统主要包括:输入层(Input Layer),该层使用大小为T的滑动窗口在当前原始推文及其评论上滑动,进行重叠采样。句子内部各分词位置嵌入层(Position Embedding Layer),该层结合自动标注技术实现神经网络学习文本序列字符之间的上下文关系。句子间相对位置嵌入层(Real Text Embedding Layer),该层使用二分类神经网络模型,结合自动标注技术对每一个字符进行分类,以实现神经网络对变长输入文本的特征学习。特征融合层(Feature Merging Layer),该层将句子间相对位置嵌入层嵌入结果、句子内部各分词位置嵌入层嵌入结果与原始输入的特征进行融合,融合的结果作为平行嵌套层的输入。平行嵌套层(Parallel Nested Layer.),该层利用Bi-LSTM来提取特征融合层获得的各原始输入的浅层特征,以学习不同句子之间的语义关联,并通过之后的特征层和分类层实现最终的谣言分类与检测。SPNLSTM算法的核心思想是充分利用谣言评论具有时序性的特点,设计基于重叠时序的多重采样的方法构建平行嵌套LSTM。该方法将每一条原始推文和对应的所有评论看做一个整体,通过挖掘句子内部相对分词位置特征和句子间相对位置特征以体现用户评论随时间发展的变化,为判断谣言的真假提供有力的帮助。同时,在损失函数里面引入了句子级别的相对位置关系嵌入分类以及句子内部各分词之间相对位置的分类损失,综合多源损失减少不同源域和目标域之间的分布差异,采用梯度下降方法更新网络的超参数,从而进一步提高谣言检测的准确性。本文主要研究内容和贡献如下:1)对传播时间敏感特征地挖掘针对现有谣言检测模型大多忽视了用户评论随时间变化产生的重要特征的问题,本论文重点融合谣言检测数据集多种特征(如:发帖人原始发帖信息,发帖时间,其他人转发/评论的内容和时间等),以此构建原始推文的转发/评论树形结构。SPNLSTM算法采用多重采样技术将大规模样本分解为小规模样本,充分利用分割后数据的时序相关性特征,将新产生的时序相关数据转换成时间序列源数据,以LSTM为基本单元提取时序序列语义特征,从而为谣言检测工作提供有价值的信息。2)以句子为单位,结合自动标注技术,引入多源损失基于传统模型在变长文本中易出现的“对齐灾难”问题,SPNLSTM算法以句子为单位,结合自动标注技术,在有效地挖掘同一用户所发推文每一句话深层次的上下文关系的同时,也挖掘了同一个句子内部各分词之间的语义相关性。同时,在损失函数中引入多源损失以更新网络的超参数,从而获得了比普通LSTM更好的语义分析结果和建模效果。3)中英双语数据集训练“谣言”分类器SPNLSTM算法相对于普通卷积神经网络具有更小规模的神经网络超参数。论文第三章从理论和计算上对比了 SPNLSTM与传统卷积神经网络的复杂度。结果表明,SPNLSTM算法在不增加超参数数目的前提下,能更有效地学习句子间的语义关系以及句子内部的语义上下文关系。同时,论文第四章将SPNLSTM算法与域自适应神经网络(Domain Adaptive Neural Network,DaNN)和时序卷积网络(Temporal convolutional network,TCN)算法分别在两组中文和两组英文数据集上进行谣言检测算法的建模和实验。论文采用准确率、精准率、召回率作为评价指标。实验结果表明,SPNLSTM算法有效地减少了网络超参数规模,各评价指标均表现出更好的结果。同时,SPNLSTM算法在中英两种语言的数据集上都具有有效性和较强的泛化能力。在未来的工作中,本论文将重点考虑借助非监督学习方法进行谣言检测,从而减少对人工标注数据的依赖。其次,将引入更复杂的网络模型(如加入注意力机制等)和更有效的采样方式来改进SPNLSTM算法。最后,本文将从其他网站上收集更多的数据集,并尝试将检测模型应用于分布式处理平台,从而进一步提高运算效率和数据存储能力。