面向群聊文本的主题挖掘技术研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:ok2ejoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的迅速发展,即时消息系统已经成为人们日常生活中不可或缺的交流工具,从早前的网络聊天室ICQ、MSN,到用户群体巨大的QQ、微信,以及各企业聊天软件钉钉、企业微信等。随着聊天软件的功能越来越丰富,其中群聊的内容也越来越多样化,因此近年来,针对群会话内容的研究逐渐增多。从群组聊天数据中不仅可以分析用户的聊天行为、判断用户的性别和年龄段,还可以发现群聊中的热点主题,基于这个基础开展的舆情分析和舆情预警工作,对于保障网络安全具有十分重大的意义。根据分析可以发现群聊文本具有内容简短、口语化严重、语法结构不规范等问题,考虑到传统的概率主题模型仅适用于长文本,因此本文首先以针对微博文本分析的Twitter-LDA算法为基础,结合群聊在时间、用户和群简介等维度特点进行改进,提出了一种基于Twitter-LDA改进的群聊主题挖掘(MTLB-GCTM,Modified Twitter-LDA based Group Chat Topic Mining)模型。MTLB-GCTM模型是传统概率主题模型的扩展,具有浅层特征结构及概率化生成的缺点。将深度神经网络融入到主题建模过程中有助于构建深层次的主题特征表示模型,因此本文在现有的基于深度学习语言模型的研究基础上,提出基于GRU和改进TwitterLDA的群聊会话主题挖掘(GMTL-GCTM,GRU and Modified Twitter-LDA based Group Chat Topic Mining)模型,该模型不仅能挖掘出更深层次的主题特征,而且能保留传统概率主题模型能捕获全局语义的优点。本文在真实的群聊数据上进行试验,通过使用困惑度指标、人工评价指标和点互信息来对模型进行评估。通过设置两组实验对比,结果验证了MTLB-GCTM模型和GMTLGCTM模型的有效性,同时相对于MTLB-GCTM模型,GMTL-GCTM模型能够得到更好的主题语义连贯性。
其他文献
行星齿轮箱在保障机械设备安全高效的运转中,起着非常重要的作用,为了避免不必要的损失,在工程实际中往往需要对其进行实时监测以及定期维修。当行星齿轮箱发生故障时,测得的
如今,社会正朝着智能化、智慧化方向发展。科学技术水平的飞速提高,使得各领域所面临的问题越来越复杂化、多样化,而通过组织多个智能体协调一致可以共同完成一些大型复杂问
激光反射断层成像(Laser Reflection Tomography Imaging:LRT)是一种基于对目标的多角度多回波探测,通过图像重构算法获得目标的高精度图像的方法。LRT与其他远距离光电探测
食物中真菌毒素的污染一直是全球关注的问题。真菌毒素是由一些丝状真菌产生的有毒次级代谢产物,在低浓度下就会导致人和动物患病。它们的作用范围包括细胞毒性,肾毒性,肝毒
随着各领域不断增长的应用需求,3D点云成像传感器的广泛使用,对点云数据进行自动化处理的需求日益迫切,研究基于点云数据的目标识别方法具有重要的理论意义和实际价值。特征
变速箱装配过程具有装配工艺复杂、生产计划多变等特点,直接导致装配过程存在复杂动态的问题,增大装配决策的复杂性。针对变速箱装配过程复杂动态的决策问题,本文以变速箱装
随着卫星遥感技术的发展,可获得的遥感图像种类越来越多,遥感图像中包含的信息也趋于多样化和复杂化,由于各个领域的不同需求,对遥感图像的处理也有很多分类,其中对遥感图像
人脸识别已经成为当今身份认证中最重要的一项生物识别技术,并已广泛用于多种领域,例如:军事、金融、公共安全和日常生活等。近年来,由于深度学习技术的兴起,彻底改变了人们
图像分割是一种图像处理方法,目的是将感兴趣区域从图像中提取出来。然而现实中成像设备存在缺陷以及光照发生变化变化等原因,造成了很多图像的强度是不均匀的,这就使得强度
随着经济的发展,交通运输系统在客运和货运中起着至关重要的作用。乘客和服务提供商正在寻找更好的交通方式选择,这是有利于他们,如减少旅行时间,旅行成本,清洁,更好的安全预