基于Labeled-LDA的微博趋势话题检测技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:conanyuexin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,微博由于其便捷性与开放性,迅速成为信息传播的主力军。为了把握网络舆情动向,快速响应突发网络舆情事件,如何从海量的微博文本流中准确快速地检测出趋势话题也成为当前研究的一个难点和热点问题。本文针对基于主题模型的微博趋势话题检测技术展开了研究。首先,分析并总结了现有基于主题模型趋势话题检测方法的优缺点和存在的问题。主题模型的研究以LDA主题模型为代表,分为离线和在线模式。一方面,在两种模式下,LDA主题模型都能够识别出语料库中潜藏的主题信息,但是主题个数都需要人为预先设定合适的值才能使主题模型具有最佳的话题区分能力,所以主题个数的自动确定是基于主题模型趋势话题检测一个待解决的重要问题;另一方面,在线模式下,由于将每条微博看作是一系列话题的混合分布,每次更新主题模型时文档-话题分布的先验概率需要重新初始化,合适的先验概率可以使主题模型在采样时具有更快的收敛速度,所以快速有效的更新策略是基于主题模型趋势话题检测另一个关键问题。其次,针对LDA主题模型中主题个数需要预先设定的问题,提出了一个基于Labeled-LDA主题模型的离线检测方法。所提出的方法先通过趋势得分计算方法提取出趋势关键词及其爆发时间窗口,然后以趋势关键词来检索在爆发时间窗口内的相关微博文本组建文档,并根据时间窗口为组建的文档设置标签,标签总个数即为估算的主题个数;经过话题合并后即得到检测的趋势话题。评估实验表明基于Labeled-LDA主题模型,在混淆度方面比传统的LDA主题模型低,即更具有区分话题的能力;而在准确率、召回率和F-measure上都优于传统的LDA主题模型。最后,针对LDA主题模型在线模式中,每次更新主题模型时文档-话题分布的先验概率需要重新初始化的问题,提出了一个基于Labeled-LDA主题模型的在线检测方法。在离线检测方法的基础上,所提出的方法从语义层面考虑同一时间窗口出现多个话题的情况,并以前一时间窗口文档-话题分布的后验概率来初始化当前时间窗口的先验概率作为更新策略。评估实验结果表明基于Labeled-LDA主题模型的在线检测方法,在混淆度方面与离线检测方法持平,而在运行时间上比传统的在线LDA模型减少F-measure了34.64%。本文在微博趋势话题检测领域,重点研究了主题个数的自动估算和主题模型快速有效的更新策略,不仅提高了基于的趋势话题检测模型区分话题的能力、准Labeled-LDA确率和召回率;而且使模型能够胜任在线检测的任务。
其他文献
存储接口串行化已成为高性能I/O技术的发展趋势,SAS(Serial Attached SCSI)是新兴的串行磁盘连接技术。SAS接口芯片、适配器、硬盘驱动器和SAS扩展器构成一个SAS存储系统,其
随着信息化技术的飞速发展,人们的生活几乎时刻都离不开互联网。在工作、娱乐、交流中每时每刻都在产生大量的视频,图像等多媒体信息,如何快速高效的存储并且检索这些信息,已经成
本文中提到的基站系统BSS(Base Station System)是基于第三代移动通讯技术3G,运行在CDMA基站控制器BSC(Base Station Controller)和基站收发信机BTS(Base Station Transceive
随着互联网应用的日益普及,网络已成为主要的数据传输和信息交换平台,网络安全和信息安全是保障网上业务正常进行的关键。在构建安全网络环境的过程中,防火墙作为第一道安全
随着多媒体和网络技术的不断发展,数字视频信息越来越丰富。如何对这些海量数据进行组织以便于高效的检索成为当今人们迫切需要解决的问题。因此,一方面基于内容的视频信息检
基于全景视觉的动态目标检测与跟踪,在安防监控、辅助驾驶、现场监测、车载巡检、飞行器制导及空间机器人等方面都有直接或潜在的应用前景,其相关检测与跟踪技术具有重要的研究
随着网络技术和存储技术的不断发展,网络存储孕育而生,弥补了单一存储设备在性能和功能上的不足。数据的复制和容灾是网络存储中的重要研究课题。三地数据容灾技术一方面通过
随着信息技术的飞速发展,企业信息化建设逐渐被社会各界所关注,并开始在企业的管理运作中发挥着越来越重要的作用。在企业级开发领域中,使用基于J2EE的三层架构将是绝大多数
主观题评分系统是自动考试系统的重要的组成部分。中文分词技术是该系统实现的技术基础。中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文
随着互联网的普及和多媒体技术的发展,多媒体信息在生活中的作用越来越大,人们对图像等多媒体数据的需求也越来越强烈。然而,传统的文本检索技术已经不能够适应多媒体信息的