基于主题模型的Twitter事件检测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ni0ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Twitter等社交网络应用的迅速发展,越来越多的用户在上面发布实时信息、更新个人状态、表达自己的观点想法等。Twitter上的事件检测逐渐成为一个热门的研究话题,吸引了越来越多学者的关注。虽然Twitter上的数据相对于传统的新闻媒体、网络博客等数据有更新实时、覆盖范围广、用户参与度高等优点,但是Tweets数据的单条信息量少、噪音大、更新频繁、总数据量大等特点也给事件检测带来了很大的挑战。本文提出一种基于主题模型的Twitter事件检测算法GEAM(General and Event-related Aspects Model),该模型通过模拟一条与现实事件相关的Tweet的生成过程将Tweet中描述事件相关方面的词项(Event-related Aspects words)和与事件无关的常用词项(General words)区分开来。同时,我们也提出CollapsedGibbsSampling算法对GEAM模型进行估计和推理,以得到描述不同事件的词项分布。此外,我们还提出了GEAM模型的在线式变形算法,实时检测连续的Tweets数据流中产生的事件并且追踪该事件的演化过程。本文设计了一系列的实验用以评估GEAM模型的有效性。大规模真实Tweets数据集(超过6百万条Tweets)上的实验表明,GEAM模型在查准率(Precision),查全率(Recall)和重复事件检测率(DERate)都优于传统LDA主题模型。GEAM模型采用(时间,地点,实体,关键词)四元组的形式表示事件的细粒度信息,使得事件检测结果的语义更为清晰。此外,实验部分还展示了在线式GEAM模型追踪事件演变过程的能力。
其他文献
通信技术的迅猛发展使得中国的电信市场规模进一步扩大,同时在网络上运行的电信设备复杂度也不断提高。随着大量新业务的应用,使得运营商在管理和维护网络方面的工作量越来越
心电信号(ECG)的数据处理是一个极具科研价值和应用价值的研究课题。本文主要围绕12导联ECG特征提取和分类问题,提出一个精确、可行的技术方案,包括数据去噪、波形切分、时频域分
本论文主要进行了两个方面的研究:一是结合“作业和考试管理工具”介绍资源层的数据移植技术;二是结合“作业和考试管理工具” 介绍资源层的性能优化技术。论文首先论述了资源
随着互联网的普及和发展,远程教学越来越受到人们的重视,涌现出了大量利用Internet进行远程教学的系统。这种新的学习方式克服了传统教学在教学资源和教学方法方面的限制,学生可
微博客,像新浪微博,腾讯微博,在近年已经迅速成长为非常流行的社交网络服务,每天为互联网用户提供大量的实时信息。微博消息以时间顺序进行排列,这样用户就可以收到他所关注的人发
计算机联网技术的发展改变了以单机为主的计算模式,但是,网络入侵的风险性和机会也相应地急剧增多,因此网络安全成为一个十分重要而迫切的问题。网络安全是一个包含内容很广泛的
本论文首先从传统智能网技术讲起,结合其存在的缺陷,简要分析了智能网的五个发展方向。随后引出了@IN业务接入平台,并从项目背景、定义和功能等多方面加以介绍。在此基础之上,详
对等网(Peer-to-Peer,简称P2P)技术是21世纪的技术热点之一。P2P的出现将互联网的存储模式由以前的“内容位于中心”模式转变为“内容位于边缘”模式,正适应了宽带互联网和更稳
  本文主要介绍了WebGIS的特点、实现技术,并对在WebGIS研究中,所涉及到的Oracle空间数据库、分布式对象等主要发展趋势和前沿技术进行了论述。给出了一种基于MapXtreme的Web
本文首先阐述了校园一卡通系统的发展现状,指出了目前校园一卡通系统建设中存在的主要问题.然后本文研究了Web服务的技术构成,包括Web服务的基础技术——XML技术、Web服务的