基于关联规则的微博话题动态检测与演化分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:maotian1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新浪微博目前是国内最大的微博服务平台,微博流中包含着数量众多的,各个领域的新闻事件。目前新浪上有各种各样的带标签的话题事件,已有很多的研究针对于微博上的话题检测,但很少有专门针对特定话题进行研究的。一些热点事件,起源于微博,在社会上引起了巨大的轰动,作为新闻媒体或者事件相关的公关团队,更是极为关注该事件的走向,因此针对目标话题的检测与演化分析具有很好的市场需求。话题分为多种类别,包括突发事件,热点事件等等,通过对现有的微博话题检测方法进行分析,发现目前基于微博上的话题检测很少是有目标性的检测,并且要么检测类别单一,要么无法区分所检测事件类别。本文在总结了前人工作的基础上,主要针对上述问题,从以下几个方面进行研究:第一,我们介绍了微博内容的特点,结合微博的话题标签及关联规则挖掘方法,研究了如何针对特定目标话题进行话题检测与跟踪演化分析。第二,考虑到话题可以分为多种类别(突发事件、热点事件、消逝的事件等),我们借鉴了关联规则在商场顾客购物习惯上的应用方法,分析了微博话题标签在微博中的作用,从微博的话题标签入手,修改并提出了关于关联规则的4种演化模式,即新规则、热点事件规则、变化中的规则、消逝的规则等,从而达到同时检测多种类别话题,并明确其各自所属类别的目的,以便为后续的话题演化分析提供支持。第三,针对目标话题的演化进行跟踪。将我们话题检测中所用到方法直接运用于演化分析中,利用关联规则的4种演化模式对目标话题进行演化分析。采用一种方法同时完成话题的检测与演化分析的任务,一定程度上降低了话题检测与演化分析链接的复杂度。第四,将现有的应用到微博话题检测上的方法应用到我们的场景中,并与我们的方法进行对比,对各种方法的结果分析进行了探讨。本文实验结果证明了以下几点:第一,我们的方法可以有效的对特定目标话题进行检测与演化分析。第二,论文中所采用的方法可以同时检测不同类别的话题,并明确其所属类别。第三,本论文中的方法可以同时用于微博的话题检测与演化分析。
其他文献
随着IT技术的迅猛发展,市场分工精细化、服务专业化促使传统服务业悄然发生变革。面对互联网中越来越多的服务资源提供方和不断增长的需求客户群体,哈尔滨工业大学企业与服务
人脸检测与跟踪技术是人脸识别,视频检索,虚拟游戏和图形控制的一项关键技术,对进一步推动人脸识别技术的发展具有重要的意义,已成为计算机视觉研究的一个热点。本文利用图像
计算机技术、通信技术和传感器技术的发展,极大的推动了无线传感器网络的快速发展。成本低、部署方便、感知能力强、自组织等特性,使得无线传感器网络在军事、环境、医疗科学
相似检索有着广泛的应用,特别是在知识产权保护和信息检索领域。而本文着重介绍了相似检索在抄袭检测这一领域的应用。   学生作业抄袭检测的应用场景下,相似检索系统须具备
文本蕴涵的概念起源于逻辑学,同时是语言学,特别是语义研究中的重要课题。近几年,随着人工智能研究的进步,特别是计算机领域中自然语言处理领域的进步,使得文本蕴涵成为计算
本文首先全面概述了隐私保护的相关技术及应用领域,系统分析了目前国内外一些研究机构所取得的进展。针对目前隐私保护挖掘算法所存在的缺陷,例如数据保护程度不高,事务数据
现在的数字图书馆不能为用户提供有效的个性化服务,为了向用户提供更加优质的因人而异的一对一服务,个性化推荐技术便应运而生,成为数字图书馆领域重要的研究内容并得到研究
组播是下一代Internet应用的重要支撑技术,而组播的安全性是成功进行组通信所必需解决的重要课题之一。目前,人们已提出多种密钥管理方案,并采用不同的组密钥更新方案来处理
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随着具体生物问题的不同而蕴含着特定的语义需求。传统的搜索引擎如Google、百度等通用搜索引擎并不能够有
心脏是人体最重要的器官之一,作为心脏病的多发部位——心室,其生理病理特征的研究具有重要意义。心室中重要的传导系统,包括左、右希氏束支和浦肯野纤维,统称为浦肯野系统。受现