基于社交网络的突发性事件检测方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lfs888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络是指一系列建立在Web 2.0基础上,允许用户创造和交流的互联网应用。现实生活中发生的事件通常在社交网络中能引起广泛关注。社交网络中突发性事件检测方法利用机器学习、自然语言处理等技术从海量社交网络数据中发现现实生活中发生的事件,能够及时了解社会上出现的热门话题,同时能够帮助政府等机构及时了解社会舆情并采取相应措施。传统突发性事件检测方法一般通过文本在线聚类将描述同一事件的文本聚合成文本簇,然后通过分析用户生成数据中事件特征的变化趋势和轨迹等信息识别现实生活中的真实事件,但现有方法大多存在事件特征提取不够准确、识别不够及时、无法适应海量数据处理等问题。针对这些问题,本文以推特数据流为研究对象,以突发事件检测为研究目标,主要在以下几个方面进行研究和创新:(1)提出基于有限状态机的突发事件检测方法。该方法对有限状态机进行改进,通过存储特征单词的状态相关信息对新数据实现状态增量更新,解决了传统的状态机模型无法高效地处理海量实时数据的问题,在时间维度能够细粒度地识别事件突发特征。针对事件识别不够及时的问题,提出了一种突发事件判定的方法,将从推特数据流中提取的突发特征应用到聚类簇的突发事件判别上,有助于缓解事件的早期发现问题,并使用Wikipedia和Event Registry构造了突发事件测试集。该方法具有伸缩性强和计算量低的优点,满足突发事件检测的需求。(2)提出基于词相关性特征的突发事件检测方法。针对传统特征词信号突发特性不明显的问题,综合考虑用户影响力和推文传播特性构建事件特征的突发模式,解决了事件特征提取不够准确的问题。使用多归属谱聚类的方法解决了图划分方法中事件特征词重叠的问题,针对图划分个数难以确定的问题,使用特征值向量确定图划分的最优个数。针对计算量大的问题,该方法根据词关系图的变化识别出突发事件对应的特征词集合,提取突发事件对应的推文信息。该方法召回率高,能够及时检测到突发事件并得到事件关键词信息。
其他文献
目的:分析胸膜腔曲霉菌病患者的基础疾病、临床表现、危险因素,探讨胸膜腔曲霉菌病治疗的有效方法,提高对胸膜腔曲霉菌病的认识。方法回顾性分析1例采用全身应用抗曲霉菌属药物
目的探讨白介素-16(Interleukin16,IL-16)在胸腔积液中细胞的表达及IL-16的含量与胸腔积液中细胞计数、胸腔积液的性质的关系。方法收集各种性质的胸腔积液30例,其中良性16例
日本在追求政治大国的进程中,朝鲜半岛问题是重要因素,而日本对朝政策是影响朝鲜半岛整体大局的重要变量。朝鲜半岛正处于历史性关键节点。作为重新执政的日本首相,安倍政府的对朝政策将影响区域主要行为体的利害关系。冷战时期,日本在朝鲜半岛问题上,采取了“向韩国一边倒”政策,对朝鲜采取敌视。冷战后,随着国际局势的变化,日本调整了对朝政策,由此日朝两国关系发生了新的变化。两国进行关系正常化谈判,并且两国间的经济
开发了一款便携式小麦叶绿素、氮素、水分一体化测定仪,可以一次测量小麦叶片的三种生化指标,为肥水诊断提供充分依据。本测定仪由光路和电路两部分组成,光路部分采用LED加滤
本文主要对智能电网监控中无线传感网络安全问题进行了研究,重点对智能电网监控中无线传感技术、网络组成和组间、组内通信传输问题进行了研究。本文认为,智能电网监控无线传
基于欧Ⅵ用钒基SCR催化剂和铜基SCR催化剂小样试验,从转化效率、氨存储、水热老化等三个方面,对钒基催化剂和铜基催化剂进行对比研究,分析发现铜基催化剂在低温转化效率方面
随着社会经济的发展,信息技术的进步,生物医学研究引起了人们广泛的研究兴趣,成为了当今时代的重要发展领域之一。生物传感器件在疾病诊断、医疗保健、药物研制、环境监测等诸多领域的应用过程中,装置的灵敏度、集成度以及探测的精确度等性能也面临着进一步的提高与优化,因此,新型生物传感器件的研制成为了生物医学领域的研究热点。光纤生物传感器作为一种将光纤传感技术的优势结合到生物检测技术当中的高效探测分析工具,为无
为了解散打运动的供能特点及其影响因素。以26名一级、武英级水平散打运动员为试验对象,并以42名100~1500m跑等6个项目的一级运动员为对照。通过对尿肌酐系数、气体(能量)代谢
实心球在体育教学中经常出现,尤其是被列入中招考试体育的项目之一,使投掷实心球在体育课的教学中占有比较重要的位置,上买心球课又是一项既枯燥又乏味的项目。如何上好实心
朝鲜停战谈判开始后,周恩来多次指示,在我方提出的谈判议程中,务必包括“从朝鲜撤出一切外国军队”这一项。1951年7月13日,他在为毛泽东起草的致斯大林的电报中指出:“我们根据形