论文部分内容阅读
近年来,互联网技术蓬勃发展,涌现出大量的在线社交平台,人们每天在这些社交平台上交流和互动会产生出海量的数据。社交网络俨然已经成为了一个对舆情分析、情报研判有重要价值的数据源。针对此类数据,使用主题模型来进行文本信息挖掘是一种有效的方式。但是社交类的数据通常具有短文本的特性,如果直接用传统的主题建模算法作用在上面,生成的主题效果一般。经过分析可以发现,传统主题模型在处理此类数据时,仅考虑文本数据本身的内容而忽略了数据内部蕴含的社会网络。本文在研究LDA主题模型、短文本扩充和相关社团发现算法的基础上,提出一种针对此类内部蕴含社会网络的数据集(下文简称社交型数据集)上的主题模型实现。在此模型中,通过对社交型数据集进行社团发现并以此为依据进行短文本的合并和扩充,用生成的长文本代替原数据进行主题建模。提出的模型在有效的缓解数据稀疏问题的同时充分利用了源数据的社交属性,提高了主题模型的质量。本文的主要工作有以下几个方面:1.提出一种基于社团发现的短文本扩充方案。根据社交型数据中包含的社会网络,以基于标签传播、谱分析、探索策略等多种方式进行社团的发现和划分,再在此基础上,运用传统的短文本处理方式(如拼接等)对文本进行处理,生成具有丰富词汇的长文本,进而进行主题挖掘。2.针对此场景下基于谱分析社团发现算法的主题模型做相关改进和优化:考虑基于探索策略的Potts模型算法在计算过程中存在的收敛速度慢、可能收敛到局部最小点等问题,提出二次降温的Potts模型算法。把迭代过程分为两个阶段,高温阶段采用全局扰动的方式;低温阶段采用有限的扰动,使模型更快收敛,同时采用回温策略,使算法更有可能跳出局部最优解。通过实验验证改进算法的结果优于直接收敛的结果。3.针对此场景下基于标签传播社团发现算法的主题模型做相关改进和优化:考虑到社交网络中各个结点具有不同的影响度,并且部分核心节点可能对多个社团网络都较大影响,提出COLPA算法。该算法是在COPRA算法基础上做的改进。在COLPA算法中,采用了新的更新策略并引入了标签衰减因子和邻接结点影响力因子进行迭代控制,并提出了新的终止策略,使模型更快达到收敛。通过实验验证采用COLPA算法聚类后的数据进行挖掘能产生质量高于运用LPA的产生的主题模型。