论文部分内容阅读
近年来,社会化媒体获得高速发展,人们的意见表达空间得到了空前扩展。以微博为代表的社会化媒体正在成为很多热点事件的首发平台,如何快速发现和检测社会化媒体中的突发热点事件,对舆情分析等应用来说至关重要。同时在社会化媒体中,捕风捉影、造谣生事的情况时常发生,造成恶劣影响。对社会化媒体中的事件进行可信度评估并识别网络谣言,可以降低其不良影响,维护经济和社会稳定。目前,突发热点事件的检测主要通过检测热词来发现事件,在实际应用中往往存在着将周期性突发事件和短时间内集中发布的广告误识为突发热点的问题;在社会化媒体事件可信度分析研究中,目前主要的分析方法有基于可信度排序和基于分类器判别两种思路,但大部分方法未考虑用户的观点和情感倾向性对谣言事件判别的作用。此外,对用户特征的挖掘也存在不足之处。针对以上问题,本文对突发热点事件的检测及其可信度分析方法进行了研究。首先,本文设计实现了一种基于热词识别和原创度过滤的突发热点事件检测方法。首先利用微博的文本内容及其传播特性,挖掘出突发热词。然后对热词进行聚类,形成高度相关的簇,从而发现突发热点事件。此外,本文提出利用话题原创度为主要特征,对在内容和传播规律上酷似热点的广告类事件进行过滤的方法,有效提高了突发热点事件检测的精度。在此基础上,本文研究了基于特征挖掘的事件可信度分析和谣言检测方法。针对检测到的突发热点事件,通过利用事件在文本内容、发表用户特征、话题以及在社会化媒体中的传播特性等特征,构造分类器发现虚假谣言事件。本文的主要贡献包括:第一,本文设计实现了一种利用回顾窗口,综合考虑词语的词频及其增长速度进行热词识别的方法,有效改善了周期性事件误检的问题;第二,本文提出和设计话题原创度指标,并用于对应用环境中常见的广告事件进行过滤,提高了突发热点事件检测准确率;最后,本文提出的利用多视角特征进行事件可信度分析的方法,可以较好地检测社会化媒体中的谣言。文中提出的一系列谣言事件判别特征对相关领域的研究也有很好的促进作用。