开放域事件抽取与微博事件检测跟踪

被引量 : 0次 | 上传用户:x1026221496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0时代的到来,网络文本数据成爆炸式增长,使人们淹没在数据的海洋中。如何对海量数据进行处理、如何高效地为用户提供需要的信息成为亟待解决的问题。开放域事件抽取正是在这一背景下逐步兴起的。本文中开放域事件定义与传统事件定义不同,主要以任意领域事件触发词为核心,并包括与其关联的时间、地点、人物、数量等多种元素构成的结构化数据,是不可预测的。本文的研究内容主要针对传统新闻媒体中的自由文本进行开放域事件抽取。同时由于微博也是一种信息分享、传播平台,对于热点事件挖掘有着重要意义,因此本文也研究了面向微博数据的事件检测、跟踪、表示。对于开放域事件抽取,本文将其分成两阶段任务:开放域事件触发词抽取与开放域事件元素抽取。针对触发词抽取,本文提出基于规则的方法和基于CRF模型的方法。规则方法需人工构建规则,有着抽取速度快、表征能力强的优点,但也存在规则不完备,过分依赖句法分析的缺点。CRF模型方法抽取准确率高,受句法分析影响小,但对于复杂句式抽取效果差。本文在此基础上将二者结合的融合策略,并通过实验证明融合方法的有效性。对于事件元素抽取,本文首先使用最大熵模型进行抽取,该方法简单,但没考虑到候选事件元素之间的特征,对于单句多个事件的情况抽取效果差。因此本文提出基于超图分割的事件元素抽取方法。通过将候选事件元素之间的语言特征和候选事件元素与触发词之间的语言特征融入到超图模型中,并使用超图分割算法进行事件元素的识别,该方法对于单句多个事件的情况有较好的抽取效果。针对微博数据,本文提出了一套完整的事件检测、跟踪、表示的框架。本文根据微博事件的特点,重点考虑了事件的时间演变效应。在事件跟踪过程中,本文新颖地从图论角度出发,使用二部图匹配算法进行事件跟踪。在事件表示中,本文着重从社会学角度考虑,引入了微博影响度因素,完善微博事件表示方法。本文的开放域事件抽取研究可以帮助用户从互联网文本中高效挖掘有用信息,也可以为知识推理或者问答系统等更高层的自然语言应用提供支持,因此具有十分重要的应用价值和产业意义。
其他文献
随着机械动力学仿真技术及有限元仿真技术等一系列科学技术的高速发展,使得摩擦学研究的发展正在从传统的实验研究向虚拟仿真与实验相结合的研究方式发展,通过在计算机上进行
研究背景以及目的:胸腺肿瘤侵犯上腔静脉以及心脏在临床上是罕见的。它可以严重影响血流动力学,出现明显的临床症状,因此需要积极及时地治疗。目前全世界对于此类病例的报导较
白蚁的分布主要在赤道周边,目前世界上已知的白蚁种类达到3000余种。其中我国就有480余种白蚁种类,部分白蚁种类对我国的房屋建筑、江河堤坝的危害比较大,每年的经济损失数量
在中国特色社会主义建设进程中,知识分子问题始终是一个非常重要而又特殊的问题,对于知识分子问题的研究,不仅是建设社会主义现代化的需要,也是实现“中国梦”的需要。中国共
新媒体强势入侵,传统媒体不断弱化的当下,正是传统媒体转型瓶颈期,此时的传统媒体出路在哪?笔者认为传统媒体可从"内容、渠道、思维"三个维度进行整合。即传统媒体应始终坚守
煤矿作业环境恶劣、工序复杂、事故多发。统计研究表明,有96.5%的煤矿事故是由人的不安全行为所导致。因此,加强矿工不不安全行为干预研究,具有重要意义。所以,本文运用经济学、
过往十几年是我国都市报蓬勃发展的黄金时期,广阔的发展前景以及市场空间使得越来越多的资本流向了这一领域,从而造成了都市报行业的竞争不断加剧,加上新媒体的冲击,都市报市
2014年可谓是内地真人秀节目大火的一年,各卫视纷纷看中"这盘大菜",亮出各自大招,通过或引进、或创新、或借鉴等方式,在结合自身特色和条件的基础上积极添加新鲜元素,以求得
不动产预告登记制度是一项特殊的不动产登记制度。不动产预告登记通过对将来不动产物权变动的请求权进行登记,赋予其一定的物权排他效力,进而保障此债权请求权的最终实现。预告
电视传媒行业在我国市场经济的发展过程中起到了非常重要的作用,特别是加入世界贸易组织之后,对电视传媒行业提出了更高的要求。新的发展背景和形式下,电视传媒行业具有资本