面向微博短文本的事件检测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:slksm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推特、新浪微博等社交网络社区中每天都传播着现实世界中发生的事件。这些事件可以是多种多样的,比如明星轶事,政治事件,当地社会事件以及自然灾害等。用户在见证或参与发生的事件时会在微博平台中发文以表达观点或寻求关注,因此微博平台积累的用户数据和大量的微博文本数据对于发现社会上发生的事件具有极大的价值。然而社交媒体的事件检测有以下几个难点:一,与传统媒体不同,社交媒体的文本是无格式并且垃圾文本占多的短文本,这导致很多针对传统媒体比如报纸、网站博客等设计的算法不再适用于社交媒体,比如基于文档聚类的事件检测算法不再适用于微博类的社交媒体。二,社交媒体数据量比较大,传统的基于文本聚类的事件检测算法效率会非常低下,而且基于特征词聚类的方法在用词向量等词袋模型表示时会随着数据量的增大出现维数灾难。为了解决现有算法的不足以及更有效的利用微博检测事件,本文针对微博类社交媒体自身的特点,提出了两种不同类型的算法:基于EventGraph图模型的事件检测算法和EventLDA事件生成模型。在基于EventGraph图模型的算法中,我们利用词语的共现关系,以及词语之间的关联强度等构建有向加权图,事件则以子图或社区的形式分布其中。由于社交媒体文本,噪声多,数量大,我们提出了基于关键节点的事件社区发现算法。该算法不仅能够避免把由噪声文本组成的社区误认为事件社区而且降低了基于图模型的事件发现算法的时间复杂度。此外基于关键节点的事件社区提取互不干扰,该算法能够很好的并行化。EventLDA事件生成模型是一个三层的贝叶斯混合模型,包含了词语-事件-用户三层模型。在该模型中,事件是词语和时间上的一个概率分布,用户是事件上的一个概率分布,同时假定每一条文档只描述了一个事件。在该模型中,我们假设每一条的文档的生成过程如下:用户首先从自己事件分布中选择一个事件,然后基于该事件在词语上的概率分布选择词语,如此重复以上过程直到文档完。成我们采用吉布斯采样算法来估计模型的参数,即事件在词语上的概率分布以及用户在事件的概率分布。为了验证算法的高效性和可行性,本文在四份数据集上做了实验并与经典的LDA和数据集作者提出的BNgram算法做了对比实验,并分析了模型参数对实验结果的影响。
其他文献
不同时空中的民间美术,其内蕴分类与特征不尽相同。天水民间美术将原始思维、文人情趣、宗教文化、吉利追求、时代新歌、差异化的族裔文化交织在一起,构成了天水民间美术气象
环型混凝土靶性能检测是摸拟井下射孔效果的必要检测手段。射孔效果反映着射孔弹在井下的真实射孔水平。通过几组对比试验证明了射孔弹设计、制造、安装过程中诸多微小缺陷对
<正>1.纤维的潜力及其挖掘途径目前普遍认同的纤维定义是,具有足够的细度(小于100μ m)和足够的长径比(大于500乃至无限大)并且显示一定的力学特性者。具有纤维形态的物质在我
综合计划管理是以企业发展战略和规划为指导,来确定的公司当期经营管理的各项工作指标,并对主要工作指标进行综合平衡、优化后形成的公司年度计划目标。综合计划管理模式在企业
作为东部职教集团代表,2012年,北京市商业学校直接参与了国务院滇西扶贫工作计划,在教育部直接统筹领导和北京市教委大力支持下,学校对接云南省保山市签署战略合作协议,在联合办学
期刊
当住宅地产、商业地产,甚至包括旅游地产泛滥,文化旅游产业与地产结合成为了众多开发商眼中新的“洼地”。以文化休闲消费为主体的旅游综合体已经成为当下旅游地产发展的方向$$
报纸
本文以知识图谱的形式分析了&#39;一带一路&#39;协同发展的现状及未来的发展趋势,探讨了平凉市在&#39;一带一路&#39;视域下的协同发展措施。认为平凉市应注重提升自身发展潜
[目的]探讨适合昭阳区的有效防治马铃薯Y病毒(PVY)和根结线虫的生物药剂,降低PVY和根结线虫病对烤烟生产造成的损失。[方法]通过防治根结线虫病的4种药剂和防治马铃薯Y病毒病的
本文分析了正旋压极薄壁圆筒时的金属塑性流动情况及受力状态;指出了造成金属堆积、局部失稳、工件产生皱折和螺旋波纹的原因;阐述了张力旋压的工艺方法,并给出了坯料尺寸及
通过对出行的步行,自行车,公交车,地铁,私家车等五种交通工具进行分析,在实现出行的安全性的随时兼顾费用,时效性,舒适度,机动性等影响出行风险的五个指标,运用层次分析法(AHP),建立判断