论文部分内容阅读
社交网络的发展也带来了谣言信息的泛滥,又因人工辟谣的缺陷,自动化地谣言鉴别方法对公共安全、舆情监控极为重要。现有的相关研究方法中,基于特征工程的传统机器学习模型对专家知识的要求高,且人工设计的特征泛用性不尽人意。而已有的端到端的方法模型对事件传播的特征利用的过于单一,不能全面准确地表征模型时序传播过程。本文针对以上问题,提出了将信息在社交网络的传播模式以三元要素特征的时序聚合表示,即事件周期内信息的文本内容、事件的传播轨迹、用户的反馈信号。本文通过对事件不同时段内信息的文本内容主题、事件的用户网络拓扑结构、用户的事件反馈信号三元特征原始数据进行有监督的特征提取,以异质特征聚合来学习事件传播模式的隐层表示,并在此基础上进行谣言鉴别。本文的主要研究内容和创新点有以下四点。1)基于时空相似度核方法的用户网络节点分布式表示学习研究不同类型的社交媒体上用户的信息流动性极大的影响了事件的传播模式,而现有的方法往往忽略了对不同类型社交媒体的考虑。针对开放型社交网络的邻域非同性和邻接稀疏性,本文提出了一种改进的基于时空结构相似和节点度量的有偏随机游走算法用于节点的分布式表示学习,为后续的网络状态表示和谣言鉴别模型提供工作基础。提出的方法针对开放型的社交网络,不以近邻相似为基础假设,而以局部空间结构相似性出发,引入信息传播互动的时间间隔关系,考虑时空关系下节点的相似性。同时,针对谣言鉴别任务的需求,考虑了传播网络中用户节点的属性,将用户的全局特征加入到模型的度量之中。2)基于分布式记忆模型的网络拓扑结构显式向量表示方法研究现已有的研究往往只注重于事件传播过程中的某一方面特征模式,其利用过于简单,整个信息周期内的传播模式不能被全面地被模型学习表示,且现有方法不能轻易地利用复杂的网络结构信息。本文验证了谣言信息的传播网络中用户分布与非谣言信息用户分布的区分度,在网络节点表示学习的基础上通过段向量方法结构化提取信息传播过程中不同时段的用户轨迹的显式向量,用无监督的分布式模型来表征学习信息传播过程中不同时期的事件传播网络拓扑结构。3)基于种子词的用户事件观点反馈信号研究当前谣言鉴别模型算法对信息内容特征的利用往往聚焦于单条信息或话题本身的信息文本特征,然而随着信息的传播,同一事件下的信息往往会在社交网络上形成舆论导向不一的子事件,信息传播过程中内容观点的变化与信息的传播模式有着显著相关性,信息传播过程中用户的事件反馈信号有明显的时间效应。本文针对信息的事件观点反馈信号提出了自动化的采集挖掘方法来量化用户的态度表达。4)基于三元要素的深度自注意力谣言鉴别模型研究本文利用信息传播周期内各时间切片中信息的三元特征对信息各个时段信息的传播模式的影响进行分析,探究信息传播周期内不同时段传播模式对其谣言标签判别的影响。以双向门控循环单元网络进行异质性特征的聚合,以自注意力机制对信息传播中的事件时段潜在信息侧重利用,并基于此设计端到端的谣言鉴别模型。本文围绕社交网络上事件传播模式的信息的文本内容、事件的传播轨迹、用户的反馈信号三元异质特征聚合学习进行研究,提出了传播网络节点的向量化方法和网络拓扑结构的显式向量表示方法,提出了针对用户事件反馈信号的自动化采集方法。在此基础上设计了一种基于深度自注意力机制的针对谣言鉴别的时序建模方法。