论文部分内容阅读
随着社交网络的迅速发展,即时消息系统已经成为人们日常生活中不可或缺的交流工具,从早前的网络聊天室ICQ、MSN,到用户群体巨大的QQ、微信,以及各企业聊天软件钉钉、企业微信等。随着聊天软件的功能越来越丰富,其中群聊的内容也越来越多样化,因此近年来,针对群会话内容的研究逐渐增多。从群组聊天数据中不仅可以分析用户的聊天行为、判断用户的性别和年龄段,还可以发现群聊中的热点主题,基于这个基础开展的舆情分析和舆情预警工作,对于保障网络安全具有十分重大的意义。根据分析可以发现群聊文本具有内容简短、口语化严重、语法结构不规范等问题,考虑到传统的概率主题模型仅适用于长文本,因此本文首先以针对微博文本分析的Twitter-LDA算法为基础,结合群聊在时间、用户和群简介等维度特点进行改进,提出了一种基于Twitter-LDA改进的群聊主题挖掘(MTLB-GCTM,Modified Twitter-LDA based Group Chat Topic Mining)模型。MTLB-GCTM模型是传统概率主题模型的扩展,具有浅层特征结构及概率化生成的缺点。将深度神经网络融入到主题建模过程中有助于构建深层次的主题特征表示模型,因此本文在现有的基于深度学习语言模型的研究基础上,提出基于GRU和改进TwitterLDA的群聊会话主题挖掘(GMTL-GCTM,GRU and Modified Twitter-LDA based Group Chat Topic Mining)模型,该模型不仅能挖掘出更深层次的主题特征,而且能保留传统概率主题模型能捕获全局语义的优点。本文在真实的群聊数据上进行试验,通过使用困惑度指标、人工评价指标和点互信息来对模型进行评估。通过设置两组实验对比,结果验证了MTLB-GCTM模型和GMTLGCTM模型的有效性,同时相对于MTLB-GCTM模型,GMTL-GCTM模型能够得到更好的主题语义连贯性。