微博开放领域的事件抽取

被引量 : 5次 | 上传用户:tshy65655
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,越来越多的用户使用twitter、facebook以及新浪等社交开放平台发布微博状态信息,这些状态信息中不仅包含了人们日常生活琐碎事件的叙述而且还包含了人们对热点事件的关注。我们可以通过从微博中提取热点事件信息,来结构化表达微博中大家所关注的焦点事件。自动或半自动地从微博中提取的事件信息,可以帮助人们更快、更好把握一些热点事件,尤其是突发性的新事件。例如,可以为新闻工作者提供线索、为网络舆情预测等提供辅助信息。微博信息中存在一些对现实世界所发生的、引起特定人关注的事件的描述,然而微博信息的分散性和冗余性,导致我们不能从微博状态信息中获得完整、准确的事件信息。微博事件通常是由命名实体和事件词构成,事件词描述了命名实体的状态和行为。这促使我们可以通过捕捉命名实体和事件词来获得微博中的事件信息,所以微博事件的抽取任务主要集中于对这两者的识别。传统的事件抽取通常是针对特定领域、基于既定规则。当转向其他新领域时需要人工地制定新的规则或者手动标记新的训练集。由于微博平台具有开放性,这使得传统的事件抽取方法运用到微博事件抽取效果很差。在这样的背景下,事件抽取已经逐步从传统的事件抽取发展到开放领域事件抽取,开放领域事件抽取系统相对于传统事件抽取系统的优势在于:仅需要单一的驱动数据,当转移到新的领域不需要重新生成规则或者重新人工标定训练集。目前,存在的英文开放领域事件抽取系统有华盛顿大学的TWICAL。由于中文词与词之间没有分隔符以及词语歧义等造成了中文分词效果不佳,此外中文命名实体以及事件词不仅构造复杂而且种类繁多。总之,中文独有的特点使得微博中文命名实体和事件词的抽取具有挑战性。目前,还没有成熟的中文微博开放领域事件提取系统。本文设计与实现了一个中文微博开放领域事件抽取系统:EventCalender,该系统以微博事件日历的形式显示了每天发生的重要事件。微博事件的抽取过程可以被看成是一个序列标注过程,本文将序列标注模型条件随机场(CRF)成功地应用于中文微博事件的提取中。在本系统中,首先使用NLPIR中文分词工具对微博的原始内容进行分词以及词性标注(POS),然后使用序列标注模型CRF抽取微博中的命名实体和事件词,使用正则表达式提取时间短语,并将时间短语与事件相关联。最后,以事件与时间词共同出现的频率来衡量事件的重要性,最终系统把重要事件显示到日历上。
其他文献
距改革开放已经四十年了,在这40年里,我国的经济得到了前所未有的快速发展,而所有行业中增长最快的行业是建筑行业。建筑业不仅与人的生活环境直接相关,还关系到了我国既经济
战略管理会计是企业成本管理的重要组成部分。随着经济全球化与我国中国特色社会主义市场经济的深入发展,我国的工业企业迎来机遇与挑战并存的局面,成本管理也遇到转型的瓶颈
保安处分制度是近现代法学领域中重要的刑法制度。许多国家如德国、意大利、日本、奥地利等国家都在本国刑法体系中设有专门篇章。与古典刑事学派所主张的不同,近代刑事学派主
随着现代社会的迅速发展,城市垃圾己成为困扰城市的严重问题。卫生填埋是目前国内应用最为广泛的垃圾处置方式。卫生填埋场是城市不可或缺的公共设施,它的建设是改善城市环境质
目的了解部队机关、科技干部的健康知识、慢性病危险因素、慢性病发病情况,为开展健康管理提供基础信息,探索适合机关、科技干部的健康管理模式。方法以部队干部的年度体检为
按思维的智力品质进行分类,思维可大致分为复现性思维和创造性思维两种类型。复现性思维是一般思维,带有重复的性质。创造性思维是人类思维的高级阶段,它主要通过发现、发展、创
进入21世纪以来,随着科学技术水平的不断提高和网络的迅猛发展,智能工具的使用越来越受到广大消费者的青睐与追捧。与之共同蓬勃发展起来的各种应用程序(即APP)也逐渐进入了
近年来,城镇居民基本医疗保险(简称"城居保")与新型农村合作医疗保险(简称"新农合")的人均财政补贴的增幅一直高于人均个人缴费增幅,使得人均筹资总额中财政补贴的比重越来越大,其中
当事人真实陈述义务,是指当事人不得故意陈述虚假的案件事实,具体表现为当事人不得主张虚假的事实,故意对对方当事人真实的主张进行争执或故意做虚假的证据性陈述。当事人真实陈
实行金融市场改革使得我国金融组织体系中出现了一个充满活力的群体——中小金融机构。尽管中小商业银行的实力与四大国有银行相差甚远,但中小金融机构以它们独特的市场定位