论文部分内容阅读
随着在线社交网络平台的大量涌现以及用户参与度的持续增长,我们已步入在线社交的信息化时代。社交网络中的关键人物处于网络中心或桥节点的位置,一方面,其言论具有代表性,反映了大部分网络用户的观点;另一方面,关键人物与粉丝和媒体的互动会促进话题传播,甚至影响舆论走向。因此对社交网络中关键人物的话题演化分析具有非常重要的理论价值和实际意义。 关键人物话题演化分析的研究基础是文本话题聚类方法,但社交网络的快速发展和文本数据的动态性为研究提出了新的挑战。第一,话题个数的不确定性:不同用户话题个数不同,同一用户不同时期的话题个数也不同,传统的话题模型中话题个数往往是通过经验设置且固定,已不能满足自主选择话题个数的需求。第二,话题演化具有动态性:话题内容会随着时间的变化而增强、减弱、甚至是消失,传统时序话题模型通过划分时间窗口,建立连续时间窗口内主题的相关性来分析话题的动态演化的方法,已不能处理快速更新,动态性强的社交文本。 针对话题个数不确定、话题内容动态变化快的挑战,本文面向社交网络的关键人物,以挖掘人物话题、分析话题演化过程为目的展开工作。本文的研究内容与贡献主要包含以下三个方面: 提出一种基于DD-CRP的短文本话题演化分析方法:面对话题个数不确定和内容动态变化快的挑战,DD-CRP模型的非参特性在话题挖掘过程中可以根据数据样本特点自主确定话题个数,而其时序特性可以对话题的演化进行建模。本文结合LDA学习得到的新闻语料高频词以及将部分实体信息整合的方法,实现了对社交网络短文本的话题演化分析。 提出一种基于快速搜索的DD-CRP模型求解算法:针对传统的话题模型求解算法需要多次迭代,并对初始值敏感的问题,本文提出了一种基于快速搜索的DD-CRP模型求解算法,该算法只求得最终的数据聚类结果,不会对每个数据样本对应的潜在变量进行采样,在保证一定建模精度的前提下加快了求解速度。 应用于新浪微博中的关键人物话题演化:本文将DD-CRP模型应用于新浪微博平台,通过数据获取与处理、模型建立与求解、结果展示等模块,实现了对真实网络中关键人物的话题挖掘与演化分析功能,为用户兴趣挖掘和社会态势感知等任务提供了技术支撑。