社交媒体事件检测与演化方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:maodaiwan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体是互联网上基于用户关系的内容生产与交换平台。近几年社交媒体的迅速扩张使人们可以实时便利地了解世界上正在发生的事情的信息。基于社交媒体的事件检测是一种从海量社交媒体内容中挖掘出有价值信息的技术。基于社交媒体中检测出的事件,国家管理机构能够及时了解现实社会的重大突发事件并采取相应措施,个人能够及时了解社会上出现的热门话题并参与讨论。社交媒体事件检测方法中,在线事件检测由于其时效性较高,最受研究者关注。在线事件检测方法通常先用文本在线聚类技术对社交文本分组,然后为文本簇提取事件特征,最后根据特征值设定阈值或者采用有监督的分类模型过滤出事件,然而现存方法在以下俩个方面存在缺陷:第一,由于社交文本信息稀疏且噪声大,常用的在线文本聚类方法存在着聚类中心漂移、聚类效果不稳定的缺点;第二,在线聚类得到的文本簇事件特征不明显,导致事件判定困难,同时不同源的社交媒体数据事件特征取值范围不确定导致事件判定模型不通用。针对上述问题,本文以推特数据流作为研究对象,以实时在线事件检测与演化为目标,主要在以下几个方面进行创新:(1)提出基于词突发特征的社交文本在线聚类方法。针对现用于事件检测的文本在线聚类方法存在聚类中心漂移和聚类效果不稳定的问题,该方法利用事件突发特征来进行以事件文本为中心的聚类,首先检测出突发词,然后利用谱聚类方法对识别出的突发词进行划分,将每一个划分结果作为一个聚类中心,再对社交文本进行聚类中心固定的聚类。该聚类方法可以达到实时聚类时聚类中心固定不漂移和聚类结果稳定的效果。(2)提出基于原型网络的突发事件判定方法。该方法先为文本簇提取基于事件突发性和演化性的时序特征、文本一致性特征和用户多样性特征,该特征提取方法可以提取不定程度不定持续时长的事件特征,解决了文本簇事件特征不准确导致事件判定困难的问题。针对现存事件判定模型不通用的缺点,该方法对提取出的文本簇特征采用自适应的半监督的方法判定事件,利用小样本学习中的原型网络方法对事件特征进行度量学习,使得判定模型可以在更换检测数据源时仅需要标记少量样本即可取得良好的事件判定效果。
其他文献
越来越多的企业和组织开始重视项目的沟通管理工作,究其原因就在于成功的项目通常都有一个和谐的沟通氛围,项目内外部的沟通都较为顺畅。对于项目管理人员而言,除了完成项目的基本工作之外,更多时间都在进行沟通和协调。大多数项目管理工作的开展或多或少都会受到不同程度的干扰,有的来自项目内部,也有一些来自于项目外部。当面对项目中的冲突时,项目管理人员需要收集和分析相关信息,拟定出科学的沟通计划,并运用巧妙的沟通
在当今信息技术飞速发展的背景下,信息技术、智能算法、互联网等技术深入融入工业领域已经成为大趋势。全球各大主要经济体都对这个趋势做出了回应,德国有“工业4.0”、日本有“新制造业”、美国的“工业互联网联盟”和“先进制造伙伴计划”以及中国的“中国制造2025”和“互联网+先进制造业”等等。本文以和云南某公司的仓库数字化项目做研究背景,探讨在生产物流领域中仓库储位分配问题的解决和实现,结合实际问题,建立
随着智慧城市信物系统的不断演进和信息技术的快速发展,越来越多的、异质的网络被建立起来,深入了人们的日常生活。如今,人们对网络质量的要求也变得越来越严格,因此,网络传播动力学以及拥堵问题研究逐渐引起了学者的兴趣。随着复杂网络理论的发展,现实复杂系统的网络得以使用复杂网络模型进行表征,从而可以借助复杂网络模型研究智慧城市信物系统的传播动力学以及提高网络质量。目前,许多实证研究表明,网络性能不仅与网络结
近年来,中国经济高速发展,这背后离不开国家政府的经济规划与产业政策制定,经济政策的变动一直被社会各界紧密关注。然而目前仍然缺乏一套可以定量刻画政策变动的指数体系,如何对政策文本进行科学地量化分析一直都是政策研究的主要内容。传统的政策量化研究方法大多仅从时间、空间两个维度对政策进行统计分析,对研究人员的分析能力依赖程度高,且主观性强、成本较高,不能有效地挖掘政策文本信息。围绕这一问题,本文基于政策文
随着科技的发展,目前物流业已普遍引入信息技术,对仓储、运输、配送等过程产生的信息进行自动化的采集、汇集、分析,其货运模式向核心平台经济转变,新模式“无车承运人”在国内诞生。作为货运经营者,无车承运人平台需要介入货运交易,与实际承揽货运的车主进行运费议价,从而保证利润最大化。随着物流运输行业订单的日益增长,影响货运价格的因素越来越多,采用传统的线性公式计算运费参考价,并电话联系承运司机就运输订单进行
房屋市场是资源分配问题中研究最为广泛的模型之一。传统的房屋市场模型包括了n个参与节点和n个不可划分的资源,这些资源统称为物品。每个节点都持有其中一个物品,并对市场中的所有物品有一个优先级排序。房屋市场的相关问题主要是考虑在这样一个简单模型下,如何设计算法或是机制,有效利用排序信息,通过无金钱参与的交换,找到满足某些市场或是个人需求的分配。在本文中,我们主要研究了一个房屋市场变体模型中的物品可达性问
近些年来,随着信息技术的迅猛发展,反映国家经济活动的高分辨率数据越来越多,从而涌现了许多探索国家经济发展的研究。大量实证研究表明,国家经济与疾病、环境、贸易、教育、科学研究等各方面的活动息息相关。技术创新也是关乎国家经济发展的重要因素之一,但目前技术创新与经济增长关系的研究仅仅停留在相关性分析上,没有深入到预测层面,且大规模、长时间跨度的定量分析仍然缺乏。为了弥补上述缺陷,本论文旨在利用专利这一丰
随着时代的发展,越来越多的人选择走进博物馆,或是享受历史博物馆带来的文化熏陶,或是感受科技博物馆带来的知识魅力。所以博物馆如何更好得服务参观者,用有限的展示空间去尽可能满足游客的参观需求成为很有意义的研究方向。传统的研究方法可能大多局限于问卷调查和人为询问,使得参观者和博物馆工作人员都不太便捷。所以本文主要研究如何结合现有的人工智能技术来获取参观者对博物馆展品的评价,方便博物馆优化其展品的展陈。一
随着互联网的快速发展,新闻的载体逐渐由报纸向网络新闻转变,人们也更倾向于使用电脑和手机去接收新闻消息,互联网给人们带来便捷的同时,也为虚假新闻滋生提供了温床。自媒体的发展,使互联网新闻内容的呈现方式愈发多样,常常包含文本、图片和评论等各种信息,如何有效利用这些信息进行虚假新闻检测,对维持社会稳定、净化网络空间有重要作用。虚假新闻是可被证假且故意传播的新闻报道,传统的虚假新闻检测方法往往只关注单一模
随着大数据时代的到来,快速精准地从科技文献中识别和预测热点科研主题是帮助科研工作者了解特定科研领域研究现状的重要手段。从海量的学术文献中获取科研热点及科研主题的演化趋势,不仅可以帮助科研人员节约大量人力物力,同时还可以帮助诸多科技创新主体和科技政策制定者从宏观、全局的角度出发,全面深入的了解相关科研领域的现状和未来趋势。因此识别科技领域的热点主题和对主题热度的趋势预测具有重大的现实意义。基于以上背