子句级别语境感知的开放信息抽取方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:NK123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是指从非结构化的自然语言文本中自动地提取出结构化的有价值的信息。近年来信息抽取任务蓬勃发展,在很多领域的影响力是举足轻重的。随着互联网技术的发展,抽取的源文件不仅数量日益增多,而且还有冗余、异构等特点,传统的信息抽取技术已经不能满足人们的要求,于是开放信息抽取应运而生。然而现有开放信息抽取的抽取方法中多数方法在抽取关系元组时并不考虑文本中的语境信息,不能抽取到语句中的事实信息。针对开放信息抽取文本中与事实相关的语境信息,本文利用文本自然语句中与事实相关的语境信息,提出了一种子句级别语境感知的开放信息抽取方法(Clause Context IE),具体工作如下:第一,Clause Context IE根据语句中语境的存在情况将语句分成四类:无语境的语句、有简单语境的语句、有并列连接词的语句和有复合语境的语句;并将每一类语句都划分出语境内容,以及和每个语境对应的相关部分和无关部分。第二,Clause Context IE根据第一部分工作中对语句内容的划分,实现子句级别的语境划分:利用文本中依存关系,从外层到内层依次检测语境,并根据语句的种类将语句划分成与此语境相关和无关的两部分,以将语境精确的分配给相关的元组:最后使用基于子句的方法从各部分获取大量的关系元组,并给每个元组分配相应的语境域生成最终的事实元组。此外,Clause Context IE还将抽取语境中存在的事实元组,并且不分配任何语境。Clause Context IE一方面避免了语境信息被错误的抽取为关系元组,另一方面在保证关系元组正确的基础上,正确地将语境域分配给被限定的关系元组。实验Clause Context IE与经典的Re Verb、OLLIE和Claus IE进行对比,分别对Re Verb dataset、Wiki dataset和NYT dataset三个数据集进行抽取,实验结果验证了子句级别语境感知的抽取方法Clause Context IE,在随机数据与含语境信息的多样性的文本中,实现了较高的召回率和精确度。
其他文献
目的:阿尔茨海默病(Alzheimer’s disease,AD)是一种起病隐匿的进行性发展的神经系统退行性疾病。脑内老年斑(senileplaques,SPs)形成、含有tau蛋白的神经纤维缠结(neurofibr
目的:本研究利用半定量检测方法对肺部感染患者的痰液PCT进行检测,通过将痰液PCT与传统炎性标志物进行比较,旨在阐明痰液PCT在肺部感染性疾病中,尤其是细菌感染的辅助诊断价
目的探讨银杏提取物对急性冠脉综合征(ACS)介入治疗后患者血小板活化因子(PAF)的影响。方法2015年6月至2016年8月行择期经皮冠状动脉介入(PCI)治疗的ACS患者40例,术后随机分
氮素供应直接影响小麦的产量和品质,阐述了氮素施用不当对小麦生长的影响、影响小麦氮肥吸收利用的因素以及氮素代谢对小麦产量、品质等方面的影响,为科学施氮、提高氮肥利用
现代企业每天会产生大量异构日志,以统一模型建立数据仓库是一个迫切的需求。建立数据仓库的核心任务是设计ETL过程,由于不同业务系统中日志内容和形式各异,目前每种ETL系统
<正>创办铱云的初衷明确,就是要创建一家云时代的新商业软件公司,而新一代商业软件有三大显著特征:移动化、社交化、电商化。从2013年~2015年,是企业级2B公司跟资本联姻的黄
本文选择1994年1月至2014年11月的人民币、美元、英镑、日元、欧元和港币等6种货币实际有效汇率的月度数据,首先采用AR-GARCH-t过程对收益率进行过滤,然后运用规则藤Copula函
<正>华西法单侧唇裂修复术式是由四川大学华西口腔医院石冰教授通过采用几何学解析方法,对个体化单侧唇裂修复术式的定点与切口设计而研究出的一种更合理化更简便的单侧唇裂
加强大学生创业工作对于提高我国国际竞争力,推动我国经济转型发展,提高大学生创新、创业能力及帮助大学生实现自身价值具有重要的意义。但在推动大学生就业创业方面,学校、
氮素是植物生命活动中的限制元素,是核酸、蛋白质等生物大分子的基本组分。目前,在农业生产中往往为追求高产而过量施用氮肥,使成本提高,收益降低,且对环境造成严重的负面影响。黄瓜是大量需氮的园艺作物,尽管在其生长发育过程中大量施用氮肥,但氮素利用效率较低,仍不能从根本上解决黄瓜的氮素需求,培育耐低氮黄瓜品种才是解决这一问题的根本途径。本研究以分析黄瓜氮代谢相关基因CsGS1在低氮胁迫下的功能为目的,利用