面向短文本的主题建模与演化问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:tonze5082
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题发现和演化一直是自然语言处理领域的研究热点。主题发现是指从大的语料库中抽取出关键词组,能够简洁地表示出这个语料库的概述信息。主题演化是指发现主题的内容或者强度随时间的演化情况,帮助研究者深入了解主题产生、发展的过程。目前针对主题演化的研究工作主要集中在长文本,例如网页、新闻还有博客等等。但是,随着微博、微信等短文本数据流的兴起,传统的长文本主题演化方法面对稀疏的短文本不再适用,因此迫切需要针对短文本数据流的新方案。本文致力于研究短文本数据流的主题演化。本文的主要研究工作有:1)针对短文本数据流的“短”特性,基于传统的短文本主题模型BTM做了改进,提出新的短文本主题建模方法RIBS-TM。RIBS-TM利用循环神经网络RNN来训练词对之间的关系,并且引入逆文档序IDF值来削弱高频词的影响,从而提升主题挖掘效果;2)提出了一个完整的基于RIBS-TM和主题关联的主题演化模型,该模型对每个时间窗口的文档集采用改进的RIBS-TM算法进行主题建模,并且用主题关联方法对相邻时间窗口间的主题进行关联分析,除此之外,还增加了主题关联过滤规则来过滤掉无效主题关联;3)探索了主题内容演化的不同类型,并在用户投诉数据集和搜狗新闻标题数据集上验证了这些主题演化现象的存在。人们在不同时间段关注点的发展与变化在不同的主题演化类型中得到详细体现,使得主题建模结果更具有实际意义和应用效果。
其他文献
共模电能存储于寄生阻抗中,电力电子驱动电路中零序回路所产生的高频共模信号会在设备中激发寄生阻抗,而旋转机械中的寄生电能却毫无规律地释放在定转子之间,这便引起了轴承
我国是一个多山的国家,山地分布较广,一直是世界上滑坡灾害频发的国家之一。同时,由于工程建设范围不断扩大,对一些地质地形条件较为复杂的地区进行适当改变不可避免,其中诱
随着智能家居的发展,越来越多的家庭内部设备需要接入以太网,因此就需要设计家庭网关对其进行统一的上网接入服务。而ZigBee技术因为具有无线应用,且在低功耗情况下可以满足
随着信息技术和网络通信技术的高速发展和人们对家居品质的要求不断提高,家居环境控制越来越追求便利化和智能化。人们希望在日常生活中可以方便的、随时随地的监测和控制家
随着城镇化和现代化的迅速发展,城市地下可用空间越来越少,如何更加有效地利用地下空间逐渐成为一个非常重要的课题。与单圆隧道施工相比,双圆盾构隧道施工具有施工效率高、
压气机作为燃气轮机重要组成部件之一,如何提高其性能一直是主要研究方向。压气机叶片前缘的尺寸虽小,但其几何形状的变化会影响整个流场的分布,因此,对前缘进行合理的优化,
视觉监视系统是近些年来机器人和计算机视觉领域的热门研究方向之一,其主要目的是利用场景下所得到的一系列图像检测和跟踪特定目标。视觉监视系统在生产生活中得到了广泛的
钢铁业面对日益突显的能源紧缺、环境污染和严峻的钢铁市场形势,企业唯有依托国家节能减有排政策,大力支持技术创新,利用技术创新来获取新产品、新工艺、新技术,为企业实现更
以水泥砂浆为锚固剂的锚杆属于粘结型锚杆。它在水电、金属矿山、土木交通和地质灾害领域应用得比较多,其支护效果在工程灾害防治和调控上起着重要的作用。由于我国经济发展,
PPP(Public-Private-Partnership)作为改善公共服务供给机制的一种融资模式,不仅可以有效的缓解政府财政支出的压力,还极大的推进了我国基础设施的建设。PPP模式下准经营项目