论文部分内容阅读
在线社交网络是将现实社会中个体与个体、个体与群体、群体与群体间的相互关联,映射至互联网上而形成的虚拟社会网络。随着信息技术和互联网的快速发展,在线社交网络已经成为人们获取信息、表达观点、发表意见的重要途径。人们通常会在社交网络平台上对当下现实社会中发生的事件发起讨论,通过发布言论、评论事件、转发扩散等多种形式抒发个人或群体的观点和态度,而这一系列讨论通常会在社交网络上形成某个或多个特定话题。随着时间的推移、事件的发酵、参与讨论的用户数目和信息内容的迅急增长,用户对于特定事件讨论的内容会相应发生改变,其对应的话题也会发生演化。然而,部分话题的演化可能会改变人们的认知,形成的舆论形势反作用于真实世界,影响事态的进一步发展。更有甚者,部分话题内容最终演变为对于社会不公的抱怨以及对政府公信力、执行力的怀疑,危害着国家与社会安全。因此,社交网络话题演化研究对于及时掌握民众动态、控制舆论的发展和维护国家安全稳定具有十分重要的理论意义和现实意义。如何形式化表示演化的话题、分析话题演化的诱因、衡量话题演化的强度、追踪话题演化的内容是本文的核心内容。本文以话题演化为研究点,分别从演化的表示——话题表示模型,演化的诱因——用户兴趣,演化的强度——话题流行度,演化的内容——话题关注点等四个方面展开研究,主要贡献如下:(1)在话题表示模型方面,传统的向量空间模型不能很好地处理词汇间一词多义、同义词等语义问题,而新兴概率模型的话题结果没有考虑词汇分布的均匀度,不适合话题关键词抽取等应用场景。针对这种情况,本文提出一个基于信息熵和LDA模型的话题表示模型,结合LDA模型和信息熵探究话题表示的区分性和代表性问题。在此基础上,将行为类型分析加入到词汇内部权重讨论,提出了融合行为类型的话题表示模型。基于新浪微博的实验表明,本文提出的话题表示模型具有更好地区分性和代表性,更符合话题表示模型的实际应用场景。(2)在用户兴趣挖掘方面,传统的用户兴趣分析方法是基于文本挖掘技术获取用户的兴趣,但这种方法取得的兴趣结果通常具有可解释性较差的特点,无法直接将兴趣展示给用户。在线社交网络中的行为交互关系是以信息为承载,对于分析用户兴趣有着很大帮助。针对这种情况,本文提出了一种基于标签和双向传播的用户兴趣挖掘方法。该方法建立在标签的基础上,因为标签通常是用户自己标注或创建的,具有更好的解释性。基于新浪微博数据分别讨论了不同交互数量下的标签情况,发现正向传播对于标签传播的影响更大,与基于传统挖掘技术的兴趣分析方法的对比实验验证了该方法在性能上的提升。(3)在话题流行度演化方面,传统方法大多是分析信息流行度的前期和后期关联或者是预测确切数值,但实际场景中更关注话题是否流行,而不是其确切流行数值。针对这种情况,本文提出了一个基于相似关系和共现关系的话题流行度预测方法。该方法给出微博中流行度的定义,并将流行度划分为四个不同流行等级,结合话题间的相似关系和共现关系完成流行度的预测。以新浪微博的信息为对象设计实验,结果证明了预测方法的有效性。(4)在话题关注点演化方面,现有的大多数话题关注点演化方法都是基于时间片这个粗粒度且采用的是时间片内发布的文档作为处理对象,没有针对特定时间点的细粒度话题关注点演化方法,而特定时间点粒度的分析如果只处理该时间点发布的文档是不现实的,因为这个时间点可能只发布较少文档甚至没有文档发布。针对这种情况,本文提出基于密度估计的话题关注点演化分析方法,认为在特定时间点之前的文档对于该时间点同样存在影响。同时还提出了基于密度估计的话题关注点演化分析框架。实验表明,分析框架可以很大程度上提升关注点的分析效率。综上所述,本文研究了社交网络中话题表示模型、用户个体兴趣挖掘、话题流行度预测和话题关注点演化分析等关键技术,在真实数据集上的实验验证了提出方法的可行性,对于社交网络的话题演化研究具有一定的理论意义和应用价值。