面向微博的事件与演化抽取技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sun18903827600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使得Web信息爆炸式增长。如何从海量的Web信息中抽取出用户需要的有价值的信息,即Web信息抽取,已成为互联网时代迫切需要解决的关键问题之一。随着社交网络的快速发展,以微博为代表的社交媒体产生了海量的实时数据。微博的实时性、社交性等特点使得微博上的事件可以快速在微博平台上快速传播,因此微博成为用户获取新闻和热点事件的重要途径,同时也成为机构和个人即时发布信息的主要信息源。微博事件抽取对于组织和企业决策具有重要的意义。如果企业能够在事件发生的早期快速地检测出事件,并准确地判断事件当前处于的发展阶段,企业就有可能提前采取有效的措施来避免事件对企业发展带来大的冲击。但是,微博事件抽取也存在着一些新的挑战。这些挑战可归纳为三个方面:(1)单条微博由于字数较少,而且由用户自由发布,因此包含的事件信息通常不完整,而且噪声较大。如何整合碎片式的微博数据,消除微博中的噪声影响,为微博事件构建一个有效的表示框架,是一个关键问题。(2)微博事件往往具有发生、发展、消亡等不同的演化阶段(或称为生命期),如何准确地检测当前事件所处于的演化阶段是一个挑战性问题。(3)由于微博用户的背景不同,在语言表达形式上也存在着较大的区别,因此不同微博用户对同一实体往往存在不同的表达。这些文字表达上的异化现象为微博事件抽取增加了困难。本论文围绕微博事件及演化抽取的技术挑战,重点研究微博事件抽取、微博事件演化阶段抽取、微博近义词识别等关键问题,并构建微博事件抽取原型系统,利用实际爬取的微博数据对所提出的算法进行性能验证。微博中存在着大量的事件信息,但目前微博用户很难获取这些微博事件的信息。本论文通过微博事件抽取的关键技术研究,为用户提供一个微博事件抽取工具,同时针对微博事件的演化特性,检测微博事件的演化阶段,通过研究微博中的近义词识别,解决微博中的异名同义现象,通过围绕微博事件的相关研究,为用户提供微博事件,以及事件的演化阶段信息,从而为面向微博的事件抽取以及微博大数据挖掘等相关研究提供技术参考。总体而言,本文的主要工作和贡献可总结为以下几个方面:(1)针对微博事件抽取中存在着微博信息碎片化、噪音信息多等问题,提出了从微博文本中抽取趋势词的方法。趋势词的提取同时考虑了微博关键词的新颖性、流行性以及影响力,可以有效地检测微博文本中跟事件相关的高质量的关键词。在此基础上,论文利用趋势词在微博文本中的共现信息提出了微博事件信息图的概念,进而构建了双层的微博事件信息图来表示微博文本的事件信息,并提出了基于图划分和子图检测的微博事件抽取算法框架。我们在真实微博数据集上开展了实验,实验结果证明了所提出算法框架的有效性。(2)针对微博事件演化阶段抽取问题,论文首先提出了微博事件的生命期模型,将微博事件的演化阶段对应为事件的生命期。在此基础上,论文根据微博事件的统计信息和文本信息构造了关键词流行度信息图(KPIG)来表示从微博事件,然后提出了一种基于图核函数的方法来刻画事件的变化信息,从而实现微博事件演化阶段的检测。与现有方法相比,本文提出的KPIG图通过图模型表示事件的关键词和统计信息,可以捕获更丰富的事件信息;所提出的基于图核函数的事件演化阶段抽取方法通过KPIG图的变化来抽取演化阶段,其思路和方法与现有工作有着明显的区别。我们在真实数据集上开展了对比实验,实验结果表明基于KPIG图和图核函数的微博事件演化阶段抽取算法具有良好的性能。(3)针对微博事件抽取中存在着近义词多且缺乏标签的问题,论文提出了一种基于自监督学习的微博近义词识别方法。该方法通过聚类为每个微博词语赋予一个伪标签,然后使用卷积神经网络训练得到词语的表征向量;依次迭代这两个步骤,直至收敛。在模型训练过程中,我们通过分析近义词的特性,选择了近义词的共现信息以及词面信息作为输入特征。我们利用实体词的各种不同名称作为关键词从新浪微博中爬取微博构建了数据集进行了对比实验,结果表明论文所提出的方法在多个指标上均优于对比算法。(4)基于微博事件与演化抽取的相关算法,论文设计和完成了一个微博事件抽取与演化分析原型系统EventSys。EventSys提供了可视化的界面,可以支持微博事件抽取和事件要素抽取,支持微博事件演化阶段的检测,同时还提供了微博事件的情感演化分析功能(分析微博平台上用户对于特定微博事件的情感变化趋势)。EventSys为微博事件抽取和分析相关算法的实验与分析提供了实验平台,也可以支持未来新的算法验证。
其他文献
研究目的:通过获取30例以半面短小、半面萎缩为主的面部不对称患者“3M”手术治疗前后激光扫描资料,并进行相关数据处理和统计学分析,建立“3M”治疗疗效的数字化评估模式,并
背景:脂联素(adiponectin,APN)对缺血性心脑血管疾病具有保护作用。脂联素通过保护内皮细胞功能、促进血管新生、减轻炎症反应等促进脑缺血后神经功能恢复。内皮祖细胞(endot
宫颈癌是目前严重危害妇女生命健康的第二位的恶性肿瘤,而且宫颈癌的发生发展是一个由量变到质变的过程,近些年来,对这一问题的充分认识,使我们筛查工作的核心由之前的以检出
伴随经济发展,传统饮食习惯和生活方式发生明显改变,慢性非传染性疾病已成为目前我国疾病谱构成的主要部分,尤其是是代谢综合征、心血管疾病及癌症等疾病严重危害国民健康。
截止至2014年,转基因作物的种植面积已达1.8亿公顷,超过350种品系在全球28个国家种植,越来越多的国家批准转基因作物的应用,并且这些数字仍在快速增长中。随着全球贸易自由化
干扰与不确定性广泛存在于实际控制系统设计问题中,如传感器测量偏差、控制系统参数改变、未知外界扰动等都可视为控制系统中的干扰与不确定性问题。对于线性系统的抗干扰问
为探讨在未来降水增加情境下,我国干旱区荒漠植物对降雨格局变化的适应机制。本文以乌兰布和荒漠植物白刺(Nitraria tangutorum)和油蒿(Artemisia ordosica)为研究对象,在生
在快速变化的市场中,企业的竞争优势依赖于强大的销售能力。而为了取得良好的销量,企业必须准确把握市场的脉搏。预测工作是制定科学合理的销售与市场计划的前提和基础。特别
在我国社会主义改革开放和现代化建设的重要时刻,江泽民总书记在中央党校发表了重要讲话。这篇讲话从当代中国前途和命运的高度,高屋建瓴,总揽全局,观点鲜明,分析透彻,为全党
中子星(NS)和黑洞(BH)是极端致密的天体,它们有着极强的引力场,并可能伴随着强磁场,其所处系统演化的过程中通常都会有剧烈的活动,产生高能量的辐射爆发现象。对这类现象的观