基于交互图分层池化的虚假新闻检测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:manstation
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术快速发展,社交媒体逐渐取代了传统媒体,信息在社交媒体上快速传播的同时,也给虚假新闻传播带来了可乘之机,虚假新闻对于个人和整个社会都有潜在的危害。新闻传播过程中的用户交互形成了一个复杂的异构图,其中评论和传播是两个重要组成部分,并且都包含了可用于评估新闻真实性的特征。现有的虚假新闻检测模型存在较多缺陷,在评论特征提取上,传统词向量与循环神经网络结合的文本表示方式,语义表达能力弱,评论回复结构保留和冗余评论去除等方面考虑不全面,在传播网络方面,也没有充分利用网络中存在的群体信息。考虑到现有模型的不足,基于评论交互和传播交互,提出了交互图分层池化的虚假新闻检测模型CPGP(Comment-Propagation Graph Pooling)。利用用户交互构建得到评论图和传播图,其中评论图以评论为主,并结合新闻句子以及与评论相关的推文作为结点,属性为对应的文本,边代表回复关系或内容相似关系,并使用预训练Bert提取文本语义;传播图以新闻作者、原推用户、转发用户作为图中结点,并根据朋友圈关系对传播结构进行重建,并以用户资料作为结点属性。CPGP模型使用图神经网络学习图结点潜在特征,对于评论图,使用基于结点选择的方式对评论图进行分层池化,以保留关键内容结点;对于传播图,使用基于结点聚类的方式对传播图进行分层池化,以捕捉传播群体特征。模型CPGP依据池化前的图特征学习具体方式,分为使用图卷积神经网络的CPGP-GCN模型,以及使用图注意力网络的CPGP-GAT模型。在Fake News Net数据集上,提出的模型与多个基线模型进行了实验对比。实验结果表明,CPGP-GCN、CPGP-GAT模型的综合性能均优于其它模型,且CPGP-GCN模型整体性能要优于CPGP-GAT。在Fake News Net的Gossip Cop子数据集上,性能较优的CPGP-GCN准确率和F1分数,比基线模型相应最优的指标分别提升了4.02%和3.66%,在Politi Fact子数据集上则分别提升了3.87%和3.23%。消融实验结果也验证了用户评论和传播信息对于新闻真实性评估的重要性,且二者具有互补作用。
其他文献
管道作为重要的油气资源运输通道和城市生命线工程的重要组成部分,其安全可靠运行必须得到保障。在永久地面位移(PGD)和运营期荷载作用下,管道和地基土之间会发生相对运动可造成管道受损甚至破坏。管土之间存在明显的相互作用,这是管道力学响应的关键影响因素,因此有必要对其进行深入研究以提高对管-土相互作用的认识,同时为管道设计提供参考。本文研究的主要目的是揭示中密至密实砂土中埋地管道在竖向-横向空间中的管-
学位
随着电子商务平台和社交媒体的应用愈加广泛,越来越多的用户倾向于在各大软件平台上发表评论。对这些文本进行情感分析,可以知晓用户态度,给多个领域带来巨大的商业应用价值。对象级情感分析任务可以分成评价对象抽取和评价对象情感分类两个子任务,即先抽取语句中的所有评价对象,再判断每个对象的情感极性。评价对象抽取模型存在的问题有:只使用通用词嵌入,缺少特定领域专有名词的语义信息;忽略历史标注信息与当前标签预测的
学位
二维矩形装填面积最小化问题(Rectangle Packing Area Minimization Problem,RPAMP)要求将一组已知尺寸的矩形模块不重叠地、正交地放置在一个平面内,并使整体布局的面积最小化。RPAMP问题是经典的具有NP-难度的组合优化问题,在工业界也有广泛的应用,如工业原材料的切割和装填、芯片设计的布局规划等。因此,研究求解RPAMP问题的高效算法具有重要的理论价值和实
学位
监督学习由于其强大的非线性表征能力已经成功应用在文本分类,语音识别,图像分类等领域,并在全监督图像分类任务上取得了巨大成功。然而,监督学习需要大量标签样本,这在实际应用场景中难以满足。因此,使用大量无标签样本以及少量标签样本的半监督图像分类算法逐渐成为图像分类领域的研究热点。本文重点研究半监督图像分类算法中结构简单、方法有效的自训练图像分类算法,分析了现有方法存在伪标签噪声和类别不平衡两大主要问题
学位
工业领域的生产设备异常检测实际上是采用无监督技术准确预测设备早期劣化的异常工况和定位具体的异常参数,高斯混合模型是业内最广泛使用的技术之一。深度自编码高斯混合模型(Deep Autoencoding Gaussian Mixture Model,DAGMM)是基于高斯混合模型改造的深度异常检测技术,虽然在生产设备数据集上性能相对较优,但是仍有提升的空间。由于DAGMM所采用的深度自编码器的瓶颈层,
学位
深度学习在自然语言处理(Natural Language Processing,NLP)领域的各项任务上取得了较好的成果,但是深度学习模型由于具有复杂的网络结构、海量参数的特点,内部决策过程难以被理解,模型的预测行为缺乏可解释性。目前针对深度学习在自然语言处理领域的可解释性研究分为两条路线:事后解释方法和自解释模型,事后解释方法从模型的预测结果出发,推断输入中哪些单词对模型预测结果的贡献程度高,自
学位
面部表情是人际交往中信息传递的重要途径,在察觉人物情绪和分析人物话语含义等方面起到了非常重要的作用。随着智能设备的广泛应用以及深度学习方法的完善和普及,现有人脸表情识别算法在识别准确率等方面取得了一定提升,但仍旧存在较大改进空间。目前,大多数模型在实验室环境下表现良好,但面对采集自真实世界的数据集时表现并不理想。同时,由于人脸表情识别任务特有的类间相似性和类内差异性,现有的深度学习模型和单一的注意
学位
数字水印技术在多媒体保护方面发挥着巨大的作用,实际应用需求的变更推动了数字水印技术的发展。传统的水印方法结合载体图像本身特征进行水印嵌入,但泛化效果存在不足。同时,信息传输的方式发生变化,摄屏攻击愈发常见。面对更多样复杂的攻击,传统水印已经远不能满足需求。结合深度学习的水印在透明性和鲁棒性上有了较大的提升,但仍然难以在二者中保持平衡。现有深度水印算法的嵌入基本在空域进行,载体图像的失真仍然比较明显
学位
响应时间分析(Response Time Analysis,RTA)方法在全局最早截止期优先(Global Earliest Deadline First,G-EDF)调度下实时任务集的可调度性分析中具有举足轻重的地位。G-EDF调度的核心思想是通过比较作业的绝对截止时间来判断它们的优先级,绝对截止时间与优先级成反比。RTA方法通过比较每个任务的最坏情况响应时间(Worst-Case Respon
学位
当热点事件发生时,热点数据会被大量重复地发送,造成整个网络系统的性能下降。为此,数据广播作为一种高效的数据分发技术被提出。在一些复杂的数据广播应用中,服务端需要在同一时刻监控多个随时间变化的对象,并根据这些对象的信息实时地做出调度决策。例如在交通信息预测的场景下,司机需要同时获取周边多条路段的实时路况,来做出当前最优的路线规划。这种需求场景可以抽象为对一组连续周期性查询的实时调度问题。在多信道广播
学位