论文部分内容阅读
近年来,在线社会网络的发展与普及,改变了人们对信息的生产与消费方式。社交媒体的出现,极大改善了人们的生活质量、促进了社会的发展。然而,谣言、诽谤、阴谋论等虚假信息的泛滥给社交网络与现实世界带来极大危害。其所引导的错误舆论不仅会损害个人形象、公司利益、政府公信力,甚至会扰乱社会正常秩序、造成社会恐慌。当前,虚假信息泛滥已成为全球社会主要威胁之一。虚假信息与核实信息是如何竞争传播的?虚假信息在传播上有何特征,特别是异常特征?机器帐户在虚假信息传播中有何作用?如何有效对抗虚假信息的传播?当前,来自各领域的研究人员正在积极探索以上问题,研究虚假信息传播的复杂机制;而如Twitter、Facebook等平台也正在采取一些对抗手段。但是,我们发现很少有系统的、基于数据的研究来指导上述工作。本文将通过构建合适的系统而采集海量数据,如千万量级的推文数据,来对虚假信息传播作出系统的、定量的研究。主要贡献有以下四点。(1)提出了一种基于新闻源的虚假信息采集与追踪方法,并基于该方法进行了数据采集,从而为构建虚假信息传播数据集提供了有效方法。在虚假信息传播的实证研究中,首先面临内容验证的难题。面对海量信息,单纯的人工收集与验证的方式显然是不足的,因而急需自动化系统的辅助。而现有系统功能有限,或依赖于人工标注而不具扩展性、或依赖于内容验证算法而难以保证准确性。我们首次提出了基于新闻源的解决方案,即采集与追踪那些携带来自特定新闻源的URL链接的推文。与其它的系统相比,我们的系统具备可扩展性和高准确性,所收集的推文集具有完整性;所得到的具有约100万虚假信息文章和5000万相关推文的数据集,是当前研究虚假信息传播最大数据集之一。(2)提出了一种基于信息网络k-核分解的虚假信息传播分析方法,能有效识别虚假信息传播关键节点,发现了虚假信息与核实信息节点存在竞争传播的关系。受限于内容验证的难度,对于虚假信息传播的研究,或仅限于模型分析,或基于个例与少量数据的分析。得益于Hoaxy系统,我们能够第一次对大规模的虚假信息传播,尤其是其与核实信息之间的竞争,进行实证研究。特别的,我们使用k-核分解的方法,对2016年美国大选前后社交媒体上出现的大量虚假信息与揭露它们的核实信息之间的竞争传播网络进行了剖析。我们发现,当从网络边缘向网络中心移动的过程中,核实信息所占比率不断下降,直至几乎消失,但机器帐户的表现程度却不断加强。主核集用户数量在大选日左右达到均衡状态;随后的网络演化中,主核集用户很少发生变更,但它们之间的连接变得更加紧密。最后,我们通过网络渗透理论,对网络的鲁棒性进行量化评估。基于以上结果,我们首次提供了一个大型虚假信息传播网络的剖析图。(3)提出了一种虚假信息与核实信息传播过程的特征提取与分析方法,可有效对比虚假信息与核实信息的传播过程。我们以信息核实网站Snopes(snopes.com)为案例分析,发现:(a)约70%的虚假新闻会在一周内被曝光,而要达到这个曝光率,虚假新闻平均至少会出现800条推文;(b)虚假信息和与其竞争的核实信息的推文分享活动存在相关性;(c)转发类型推文是主要的传播推文,但对于核实信息的传播,回复类型的推文亦占据着相当重要的比率。以上结果表明,人工核实者在努力对抗着虚假信息传播,但人工方式并不足够有效,大量虚假信息在被核实前已大范围传播了;社交平台上,核实信息与虚假信息存在竞争关系,具有活动相关性;且社交平台上,信息的核实更具有“对话”属性。其后,我们对海量数据进行进一步的统计分析,发现了虚假信息传播的一些异常特征:(a)存在一些对同一文章进行高达上千次推送的“超级传播者”;(b)这些超级传播者即使在同一篇文章的推文分享中所占比重也异常高;(c)对比超级传播者和随机帐户的似机器性分值,超级传播者的分值明显偏高。基于以上结果,我们从多个维度对虚假信息与核实信息的竞争传播特征进行量化分析。并首次系统地、量化地分析了虚假信息传播中由机器帐户所导致的异常特征。我们的结果暗示着,在虚假信息的传播中,机器帐户很可能起着重要作用。(4)围绕机器帐户的信息传播作用开展相关研究,获得了两个重要发现,揭示了机器账户放大虚假信息传播的特殊作用,为监控虚假信息传播提供了重要手段。在案例分析中,我们发现机器帐户会采用大量重复宣传、变换与劫持Hashtag,以及插入“对话讨论”等策略来传播虚假信息。在统计分析中,我们进一步发现:(a)在虚假信息能够大规模传播前,机器帐户已活跃在其早期传播之中,从而达到扩大传播的目的;(b)机器帐户以拥有众多关注者的用户为目标,以回复和提及的方式来向目标用户投放虚假信息内容;(c)真人帐户很容易受到机器帐户的操纵,轻易再分享由机器帐户所发布的内容。通过以上结果,我们首次揭示了机器帐户是如何放大虚假信息传播的;并表明,如果要减少社交网络上虚假信息的传播,采用遏制机器帐户的方式,应该能够成为一种有效的策略。