论文部分内容阅读
随着Web2.0时代的到来,出现了各式各样的社交网络应用来满足用户日益丰富的社交活动需求,信息借助这些应用平台高速流动,加之各种智能移动终端技术的不断进步,越来越多的用户在推特、新浪微博等各种流行的社交网络媒体上发布消息并参与到热门话题的讨论中。新浪微博具有信息量庞大、传播速度迅速、受众群体广泛、影响力巨大等特点,这些特点使其成为很多热点事件和舆情的发源地和传播媒介。与此同时,自由化的表达方式和匿名化的用户行为使得不实信息的发布门槛和发布成本降低,这导致网络信息质量良莠不齐,大量的虚假消息、网络谣言、垃圾广告层出不穷,尤其是网络谣言的影响极其恶劣。如何识别谣言成为人们面临的严峻挑战。 传统的谣言检测方法通常将其视为二分类问题进行处理,因此特征的发现与选择对于分类器的分类效果至关重要。纵观现有的研究成果,基于特征的谣言检测方法仅关注文本内容、用户、传播等方面的静态扁平特征,忽略了消息传播演化结构的影响。此外,传统的谣言发现方法往往依赖于手动选取特征来训练机器学习算法,这不仅会耗费大量人力,而且目前人工选择的特征已经相对成熟,相关的研究慢慢陷入瓶颈。最后,我们希望得到语义和情感等高阶深层特征,消息媒体的浅层统计特征的表示空间与高度抽象的语义和情感空间之间的距离差距很大,因此传统的基于浅层或中层特征构建的分类器效果不够理想。综上,本文主要关注两个问题:如何建模消息的传播过程从而可以考虑消息传播的内部图结构和用户之间的差异性;特征选择方面,如何让机器自动学习人工提取不到的微博文本信息的隐藏表示来丰富现存的特征集。 本文的主要研究内容有以下两方面: (1)针对传统谣言检测方法往往集中于对静态扁平特征的汇总统计,忽略了消息传播结构的影响的问题,提出标记信息级联传播树模型和该模型下的一种意见领袖影响力的动态度量方法。此外,本文还提出10个新特征,结合随机通路图核和径向基(RBF)核函数构造混合核函数来融合传播结构特征和普通静态特征这两种异构特征,建立混合核SVM分类器,提升谣言检测的精度。 (2)针对人工提取特征费时费力的问题,提出一种基于双向长短时记忆网络的微博谣言检测方法。此方法通过同时考虑事件的群体响应随时间线的文本正向序列和逆向序列,实现了真正意义上的全局上下文,从而学习文本在潜在空间的隐藏表示,得到语义和情感等高阶深层特征。 以上两方面的研究内容,本文均通过分析和实验来验证模型的有效性。