Research on Rumor Detection Based on Nested LSTM with Multi-Source Loss

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:kenlixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2020年,新型冠状病毒肺炎(COVID-19)疫情全球蔓延。有关新冠病毒的来源、传播等问题的报道和讨论中掺杂了许多不符事实的说法。在社交媒体和一些传统媒体上,谣言和阴谋论甚嚣尘上。谣言的传播不仅会影响政府的应急处置,造成经济损失,还可能会加剧群体负面情绪,引起恐慌,甚至对群众乃至社会造成了严重的影响。因此,网络谣言的检测识别具有重要的现实意义。本论文的研究目标为实现微博/推特等社交网络的谣言检测。目前为止,中外学者提出了一系列的深度学习方法并结合特征工程,将谣言检测转化为分类问题。得益于大卷积和更大的感受野的优势,这些谣言检测方法取得了显著的成效。然而,当这些算法在拥有大量评论及转发量的社交网络平台上应用时,往往存在以下两个方面的问题:1)社交网络平台的推文通常附带大量的转发和评论,而转发和评论内容往往为确定原推文是否是谣言起着重要的作用。同时,随着时间的推移,后续评论内容对原始推文是否是谣言的导向性更强。尽管原始推文后续的所有评论内容并不都具有明显的情感倾向,但是所有的评论内容作为一个整体有助于判断原始推文是否是谣言。在这些评论中,一些内容是在陈述事实,一些只是表达主观看法,而有些评论内容则具有明显的分辨谣言的倾向。原始推文及其所有的评论内容是一个不可分割的整体,能否对这个整体进行有效地建模,直接关系到谣言检测的最终效果。当前主流的长短期记忆网络(Long Short-Term Memory,LSTM)及其各种改进模型虽然能准确提取某一条文本的特征,但是并不能够将同一个发帖人的推文与其所有的评论内容进行有效地关联。2)微博、推特等社交网站上的真实谣言评论内容长短不一,有时长度相差很大。如果简单的直接利用LSTM及其改进模型进行单独建模,易出现“对齐灾难”,网络会学习非常多的无用信息,这在一定程度上影响了这些算法的建模能力。社交网络平台的推文通常具有如下特点:每一个原始推文都会附带大量的转发和评论,并且每一条评论都具有先后时间关系和不同的感情倾向。例如,对于某用户发表的一条虚假谣言,在推文刚发布的初期,由于信息的不对称性和缺乏对相关专业领域知识的了解,其他用户的评论可能大多表现为相信、恐慌、消极等,从而深受误导。然而随着时间的推移,人们从各渠道掌握到越来越多的真实情况,质疑之声逐渐代替了早期盲从、恐慌的情绪。再后来,随着官方和其他媒体的讨论与报道,越来越多的用户能够根据现有的真实信息判断出推文的真假,并针对推文的真实性发出新的评论,这即是所谓的“谣言止于智者”的现象。基于上述特点,本文提出了基于句子相对位置和句子内部各分词相对位置的嵌套LSTM算法(Sentence and Words Position Embedding Based on Nested LSTM,SPNLSTM)。SPNLSTM 算法主要分为以下三个部分:1)句子间相对位置建模对于同一条原始推文,不同用户给出的评论内容长短不一,有的评论内容较多,但有的仅有一句话。不同句子之间具有语义上的强关联性,即具有一定的上下文语境关系。该部分对同一段文本的不同句子进行建模,能有效挖掘句子间隐含的语义关系。2)句子内部各分词相对位置建模该部分负责挖掘句子内部各分词之间的上下文语义关系,提取句子最为有效的语义特征。3)原始推文及其所有评论特征的平行嵌套建模该部分将每一条原始推文及其所有的评论划分成若干段,每一段文本具有严格的时间先后关系,同时文本的长度固定。“平行嵌套模型”的基本单元是双向长短时神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM),输入的则是经过多重采样后划分的时序相关性特征文本。基于SPNLSTM算法的谣言检测系统主要包括:输入层(Input Layer),该层使用大小为T的滑动窗口在当前原始推文及其评论上滑动,进行重叠采样。句子内部各分词位置嵌入层(Position Embedding Layer),该层结合自动标注技术实现神经网络学习文本序列字符之间的上下文关系。句子间相对位置嵌入层(Real Text Embedding Layer),该层使用二分类神经网络模型,结合自动标注技术对每一个字符进行分类,以实现神经网络对变长输入文本的特征学习。特征融合层(Feature Merging Layer),该层将句子间相对位置嵌入层嵌入结果、句子内部各分词位置嵌入层嵌入结果与原始输入的特征进行融合,融合的结果作为平行嵌套层的输入。平行嵌套层(Parallel Nested Layer.),该层利用Bi-LSTM来提取特征融合层获得的各原始输入的浅层特征,以学习不同句子之间的语义关联,并通过之后的特征层和分类层实现最终的谣言分类与检测。SPNLSTM算法的核心思想是充分利用谣言评论具有时序性的特点,设计基于重叠时序的多重采样的方法构建平行嵌套LSTM。该方法将每一条原始推文和对应的所有评论看做一个整体,通过挖掘句子内部相对分词位置特征和句子间相对位置特征以体现用户评论随时间发展的变化,为判断谣言的真假提供有力的帮助。同时,在损失函数里面引入了句子级别的相对位置关系嵌入分类以及句子内部各分词之间相对位置的分类损失,综合多源损失减少不同源域和目标域之间的分布差异,采用梯度下降方法更新网络的超参数,从而进一步提高谣言检测的准确性。本文主要研究内容和贡献如下:1)对传播时间敏感特征地挖掘针对现有谣言检测模型大多忽视了用户评论随时间变化产生的重要特征的问题,本论文重点融合谣言检测数据集多种特征(如:发帖人原始发帖信息,发帖时间,其他人转发/评论的内容和时间等),以此构建原始推文的转发/评论树形结构。SPNLSTM算法采用多重采样技术将大规模样本分解为小规模样本,充分利用分割后数据的时序相关性特征,将新产生的时序相关数据转换成时间序列源数据,以LSTM为基本单元提取时序序列语义特征,从而为谣言检测工作提供有价值的信息。2)以句子为单位,结合自动标注技术,引入多源损失基于传统模型在变长文本中易出现的“对齐灾难”问题,SPNLSTM算法以句子为单位,结合自动标注技术,在有效地挖掘同一用户所发推文每一句话深层次的上下文关系的同时,也挖掘了同一个句子内部各分词之间的语义相关性。同时,在损失函数中引入多源损失以更新网络的超参数,从而获得了比普通LSTM更好的语义分析结果和建模效果。3)中英双语数据集训练“谣言”分类器SPNLSTM算法相对于普通卷积神经网络具有更小规模的神经网络超参数。论文第三章从理论和计算上对比了 SPNLSTM与传统卷积神经网络的复杂度。结果表明,SPNLSTM算法在不增加超参数数目的前提下,能更有效地学习句子间的语义关系以及句子内部的语义上下文关系。同时,论文第四章将SPNLSTM算法与域自适应神经网络(Domain Adaptive Neural Network,DaNN)和时序卷积网络(Temporal convolutional network,TCN)算法分别在两组中文和两组英文数据集上进行谣言检测算法的建模和实验。论文采用准确率、精准率、召回率作为评价指标。实验结果表明,SPNLSTM算法有效地减少了网络超参数规模,各评价指标均表现出更好的结果。同时,SPNLSTM算法在中英两种语言的数据集上都具有有效性和较强的泛化能力。在未来的工作中,本论文将重点考虑借助非监督学习方法进行谣言检测,从而减少对人工标注数据的依赖。其次,将引入更复杂的网络模型(如加入注意力机制等)和更有效的采样方式来改进SPNLSTM算法。最后,本文将从其他网站上收集更多的数据集,并尝试将检测模型应用于分布式处理平台,从而进一步提高运算效率和数据存储能力。
其他文献
利用太赫兹超材料对太赫兹进行波束调控是太赫兹研究领域的一大研究热点,本论文对基于变容二极管以及石墨烯的太赫兹超材料的动态相位调制进行了研究,在此基础上研究了由太赫兹超材料组成的阵列结构的动态波束调控效果。本论文主要研究内容如下:(1)基于广义斯涅耳定理、超材料的等效电路理论和等效介质理论研究了太赫兹超材料对传输相位的调制,并结合阵列理论分析了相位调制超材料阵列实现太赫兹动态波束调控的机理。(2)研
碳纤维增强复合材料由于具有较高的强度、韧性、耐腐蚀以及良好的阻尼特性等被广泛的应用于航空航天等领域,已逐渐取代铝等传统的金属材料。据报道,在航空航天领域中,通过阻止边缘层分离的形成,机身上的碳纤维复合材料构件如短舱、机翼、机尾表面等部位被钻削了大量的微小孔,从而减少气流颠簸,换句话来说,通过延展层流来减少燃油的消耗。而碳纤维复合材料的微小孔钻削过程受到很多工艺参数的影响,比如转速、进给速度、加工方
为探索喀斯特地区人工草地蜘蛛物种多样性及其与环境因子的关系,本研究于2019年9月-2020年8月结合样方法、陷阱法、样线取样法三种方法对黔西北油杉河新西兰牧场的蜘蛛物种多样性进行初步研究,主要研究结果如下:(1)初步揭示了研究区蜘蛛物种多样性的组成情况,共捕获蜘蛛标本3337号,隶属于18科80属127种,其中贵州新记录9种(即远亲园蛛Araneus diffinis、近阿尔隐蔽蛛Lathys
随着光纤通信技术的发展,更小的信道间隔和更复杂的信号光谱细节,对光谱仪的分辨率提出了更高的要求。基于受激布里渊散射效应的光谱分析仪,分辨率可以达到0.1pm量级,受到了广泛的关注。本论文对基于受激布里渊散射效应的超高分辨率光谱分析仪软件系统进行了设计和实现,具体包括以下内容:(1)分析了几种常见的光谱仪的工作原理和性能特点;比较了在Windows操作系统中和在嵌入式Linux操作系统中对光谱仪软件
随着经济全球化和市场一体化步伐加快,企业所面临的各种不可控环境因素越来越多,企业之间的竞争变得更加激烈。特别是钢铁企业,在“第一利润源”和“第二利润源”近乎枯竭的情况下,越来越多的企业将目光锁定在“第三利润源上”,力图从物流活动中降低企业经营成本,赚取利润空间,以提高经济效益。本文正是在这种思想的指引下,将首钢京唐公司销售物流系统作为研究对象,应用企业流程再造和作业成本法对销售物流组织机构进行重组
移动定位技术在近年来快速地发展,使得使用全球定位设备(Global Positioning System,通常简称GPS)收集大规模的轨迹数据成为了可能。轨迹数据是基于定位服务(Location Based Service,通常简称LBS)的关键部分。但是轨迹数据由于GPS定位的误差经常充斥着噪音,消除误差最常用的一个办法就是对轨迹数据应用路网匹配算法(Map Matching),即在数字化的路网
在如今社会中,物流与人们的生活和工作紧密相连,除了日常接触的快递之外,物流包括运输、仓储等多项功能,物流的各个环节都需要人,可以说人是物流系统里的核心部分。物流企业对人员的需求主要集中在基层劳动力,随着我国经济的快速发展,物流企业的数量和规模迅速扩大,对基层劳动力的需求也急剧上升。我国人口红利正大幅减少,劳动力成本在上升,而对劳动力需求却在上升,企业之间的“抢人”大战日益激烈,稳定的员工队伍决定了
直接甲醇燃料电池(DMFCs)是一种质子交换膜燃料电池,具有能量密度高、效率高、清洁度好、在常温下液体甲醇易于储存和输送等优点,因而在清洁能源发展中越来越受到人们的重视。催化剂是影响直接甲醇燃料电池性能的关键要素,但由于其高成本、易中毒失效、低催化活性密度等问题使催化性能很难提高到工业标准。因此,探索开发价格低廉、高活性和稳定性的催化剂是近年来电催化主要研究方向。本论文首先以甲醇电化学氧化反应为例
近年,随着我国社会经济发展和结构转型,防范金融风险被摆在更加突出的位置,“强监管、严问责”已成监管常态。2017年开始,中国人民银行、中国银保监会等监管机构密集出台整治金融市场乱象的系列文件,旨在打击违法违规行为,加强合规长效机制建设,引导商业银行回归业务本源,服务实体经济。2017年-2018年,中国银保监会开出7000多张罚单,罚没金额累计超过50亿元,约过去十年行政处罚总额的2倍。2018年
高速无人飞行器有着速度快、机动能力强、飞行距离长的优点,在军事和民用领域有着广泛的应用。在飞行器执行飞行任务前,任务规划系统通常会先对飞行航迹进行约束建模,再利用航迹规划算法得到可行航迹。利用航迹规划算法可以得到大量的可行航迹,但难以判断这些航迹的优劣。因此任务规划系统通常利用评估模块对航迹的优劣进行分析。论文主要研究高速无人飞行器的航迹约束建模及评估问题,旨在通过航迹评估方法实现航迹性能的排序,