基于多特征表示的社交媒体谣言检测研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:weibo78500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体谣言检测旨在根据社交媒体事件相关信息对事件真实性进行判断,受到了学术界和工业界广泛关注。现有研究中基于深度学习的方法取得显著效果,然而该类方法仍存在诸多局限如:以往方法难以有效利用消息传播过程中用户特征潜在的时序信息;现有模型在获取基于全局的事件文本表示时记忆能力受限;当前研究中未能充分考虑事件多特征之间的交互关系。本文针对上述问题,进行了以下三方面的工作:(1)针对现有研究难以准确刻画消息传播过程中用户特征潜在的时序信息的问题,提出了基于层次用户表示的早期谣言检测模型。该模型按照时间段划分社交媒体用户序列,采用循环神经网络和卷积神经网络分别学习各个时间段用户潜在的全局特征和局部特征;接着通过循环神经网络捕获时间段序列隐层表示;最后结合层次循环卷积神经网络获得的事件文本表示进行分类。实验结果表明,该模型在微博和推特数据集上,相比于基准方法在早期谣言检测1h时间点上正确率分别提高了2.7%和1.4%,并且保持较好的谣言检测性能。(2)针对现有方法捕获事件文本长距离依赖信息时模型记忆能力受限,难以学习事件文本全局特征表示的问题,提出了基于简单循环时序卷积神经网络(SRTCN)的谣言检测模型。该模型采用简单循环卷积神经网络学习社交媒体文本内容上下文表示向量;然后使用简单循环单元网络和时序卷积神经网络的层叠式模型考虑多跨度的语义信息以准确刻画全局事件文本表示;最后结合层次用户表示方法对事件进行分类。实验结果表明,在微博和推特数据集上,该模型相较于基于层次用户表示的早期谣言检测模型,谣言检测正确率分别取得了0.5%以及1.3%的提升。(3)针对现有方法忽略了社交媒体事件中多种特征之间的相关性,模型难以捕获“用户-文本”潜在交互关系的问题,提出了一种基于注意力机制的多特征融合方法。该方法采用层次用户表示模型学习事件用户特征,并引入事件全局关系特征向量;接着将用户特征和事件全局特征输入到SRTCN模型中,并利用注意力机制与SRTCN模型所学习得到的事件文本特征相融合以增强事件表示,进而对事件进行分类。从实验结果可以看出,在微博和推特数据集上,该方法相较于基于SRTCN的谣言检测模型,谣言检测正确率分别提高了0.6%和0.7%。
其他文献
随着知识数量的指数增长,知识图谱成为了组织知识的有效工具,其已被广泛应用于各行各业。近年来,为了应对知识缺失问题,以机器学习为基础的知识表示学习方法备受关注,该方法将知识表示为向量,使计算机能够理解和使用。目前,平移模型和基于神经网络的模型是知识表示的两大研究热点。平移模型虽然可以有效地捕获知识的结构信息,但该类模型设计简单,学习能力常常受到限制。基于神经网络的模型虽然表现出强大的学习能力,但其忽
学位
异构信息网络是现代信息网络中的普适性存在,且随着互联网技术的日益发展,其智能分析结果广泛应用在个性化推荐等各种领域中。但作为一种复杂的非线性结构,异构信息网络的高维、异构等特性给其直接挖掘带来了困难。网络表示学习通过映射函数的学习将信息网络中的节点表示成低维、稠密的向量形式,可为后续节点聚类等智能分析任务提供有效的特征表示机制,目前已成为信息网络挖掘中重要的研究基础。目前,网络表示学习方法在同构信
学位
随着现代医学成像技术的发展,不同类型的成像设备为医学诊断提供了不同模态图像,从不同层面反映器官或者组织的功能信息或者结构信息。临床上通常需要综合同一个病人多个模态图像的信息以作出更加准确的诊断。因此,不同模态医学图像的配准和融合是医学图像智能处理领域中的研究热点。临床上使用的医学图像模态种类繁多且成像差异显著,给医学图像的配准和融合带来了极大的挑战。一方面,不同模态间成像差异的表征各不相同,现有医
学位
聚类作为机器学习领域中一项基本而重要的任务,得到了极大的发展。具体来说,该任务以数据标签未知为前提对数据进行分组,应用范围广泛。在过去数十年间,单模聚类的方式占据了主导地位,这种方式仅考虑到样本在特征上的分布情况。然而,最近的研究表明,双模聚类的性能表现通常优于单模聚类。具体地,双模聚类基于样本和特征之间的二元性,即样本可以根据其在特征上的分布进行分组,同时特征也可以根据其在样本上的分布进行分组。
学位
血涂片图像中白细胞的计数和识别对诊断包括白血病在内的某些血液疾病起着至关重要的作用。血液疾病的诊断通常由医生通过显微镜对血液涂片图像进行目视检查,但这种人工的方式既费时又费力,诊断结果依赖医生的经验,较为主观,且容易受到视觉疲劳等因素的影响导致检查精度下降。因此,有必要发展白细胞自动分析技术,而白细胞自动分割是进行白细胞计数和识别等自动分析的基础。本文以血涂片图像中白细胞分割为主题,提出了三种基于
学位
图是一种由结点和边构成的拓扑型数据结构,在金融、生物、社交等领域的复杂系统建模中扮演着重要的角色。常见的图网络数据有知识图谱、蛋白质交互网络和社交网络等,通过对图网络数据的分析可以完成一些重要的任务。例如,社交网络中的用户推荐和社区发现任务、蛋白质交互网络中某个特定蛋白质的功能识别任务、协作网络中某个员工的角色预测任务。图表示学习是一种获取结点或子图低维度嵌入向量的有效方法。与传统的结点嵌入学习方
学位
人体行为识别是计算机视觉领域的一个重点研究课题,被广泛地应用于智慧医疗、增强现实、人机交互、视频教学、智能监控等方面。微软公司推出的Kinect体感摄像机能够高效地捕获人体骨骼数据,这种数据具有良好的运动学特性,它可以很好地刻画人体行为的动态变化。此外,骨骼数据缓解了背景、光照、人物尺度不一致等噪声造成的影响,具有良好的鲁棒性。本文利用Kinect体感摄像机捕获的人体骨骼数据进行了人体行为识别研究
学位
随着互联网和多媒体技术的迅速发展与普及,图像成为信息传播的重要媒介,互联网中的图像数量呈指数型增长,如何对网上的图像进行分类和整理成为一个具有挑战性的问题。在现实世界中,一张图像通常包含多个对象,在图像数量爆炸性增长的条件下,手动标记图像将花费大量的时间成本和人工成本。因此,多标签图像标注算法得到了计算机视觉领域的广泛关注。多标签图像标注算法,亦称图像自动标注或者多标签图像分类,其目的是从有限的词
学位
图像超分辨重建是一种将低分辨率图像通过特定算法恢复成对应高分辨率图像的技术,超分辨率技术在现实生活中有着十分广阔的应用前景。SRGAN(Super-Resolution Generative Adversarial Network)基于生成对抗网络结构进行模型设计,是目前最先进的一种超分辨重建方法。其分辨率提升效果优于其他算法,所恢复出的超分辨率图像具有更丰富的高频细节及纹理信息。然而SRGAN方
学位
时间序列数据在现实生活中随处可见,挖掘时序数据中的隐含信息并对其进行分析具有重大的现实意义。但在某些应用场景中,获取完整的时序数据非常困难或者需要较高的成本。解决这一问题的思路是引入主动学习,即选择少量时序中高价值的样本进行采集或者标记,然后利用这些少量采集到的数据对未采集的部分进行补全。由于不同的已采集数据对于补全效果的影响很大,为了提升补全精度,本文重点研究了时序数据的补全模型和选样策略。在补
学位