面向知识图谱扩充的非结构化文本知识抽取研究

来源 :湘潭大学 | 被引量 : 1次 | 上传用户:vbsunboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的快速发展,认知智能的重要性越来越凸显。特别地,知识图谱作为认知智能重要的技术手段,在搜索引擎、智能应用等场景日益展现其突破瓶颈的能力。然而,受限于知识覆盖率较低等问题,当前知识图谱难以广泛地在各个领域推广使用。互联网上存在丰富的非结构化文本,可以作为提升知识图谱覆盖率的重要知识来源。从非结构化文本抽取知识一直是自然语言处理研究中的难点和热点问题。已有的抽取方法或存在误差传播或包含人工特征选择的问题,使其具有一定的局限性,并且会为后期的知识图谱扩充带来许多额外的工作。基于以上背景,本论文主要针对知识图谱扩充的需求,研究以非结构化文本为对象的知识抽取方法,即从非结构化文本中抽取结构形式为{头实体,关系,尾实体}的知识三元组。传统的方法采用分步抽取的方式,面临着人工设计特征过于复杂、误差传播和信息冗余等问题。因此,综合考虑实体与关系的联合抽取方式成为新趋势,但其面对三元组构件重叠问题抽取效果仍不佳。为解决上述问题,本文的研究工作主要包括两部分:首先,本文提出了一种基于标记策略的多层语义结构的知识抽取方法。该方法是一种新的联合抽取方法,可协助解决知识构建的重叠问题。具体而言,首先采用一种特殊的三元组标记策略将知识抽取任务转化为多序列标注任务,即文本中每个属于实体的词可有多个标签,每个标签由三部分组成:实体在三元组中位置、三元组的关系类型以及词在实体中的位置。然后,通过提出的Multi GRU模型实现文本序列与多层标签序列之间的映射关系。其中,Multi GRU模型由编码层与解码层组成,编码层是双向门限循环神经网络(Bi GRU),解码层由多层GRU网络组成,且通过语义向量之间的差异度控制不同GRU层之间的差别。最后,提出了适用于语言特征的连续性、一致性与最近原则,可将标签序列转化为知识三元组。在NYT和KBP两组公开数据集上的对比实验表明该方法优于之前的大多数模型。其次,提出了一种基于预训练模型的自适应标签序列抽取模型以实现知识抽取的目标。该模型包括BERT编码结构以及双向GRU解码结构,与Multi GRU相比,其可基于句子语义特征自动生成每个句子中词语的标签数量,即针对存在知识三元组知识构件重叠的语句,可在模型中动态更新语句的解码行数。在远监督生成的NYT数据集以及存在大量重叠三元组的Web NLG数据集上,该模型F1值达到75.8%和80.1%。结果表明,相比于当前的知识抽取模型,本文提出的方法及模型可以更大程度的保证知识图谱扩充的适用性。
其他文献
  杂交水稻育种技术的成功是我国取得的一项重要科技成就。伴随着汕优63、两优培九等一大批高产杂交稻品种的大面积推广,我国的水稻总产量在较短时间内有了大幅度的提升,为我
目的:通过酶联免疫吸附法(ELISA)测量酒精性股骨头坏死与激素性股骨头坏死两组患者血清中骨形态发生蛋白-2(BMP-2)的水平进行对比。通过核素骨显像检查比较酒精性股骨头坏死
伴随着移动互联网快速发展和便携式终端设备的普及,以移动终端为载体的多媒体相关服务对人们生活的影响越来越大,随之而来的数字版权保护问题也更加迫切需要得到解决。目前对
經由回顧過去主張孝道信念對個體身心適應發展,具有或正、或負效果的爭議觀點的文獻後,個人提出嶄新的「雙元孝道模型」用以整合這些衝突主張,並對這一雙元孝道模型假設觀點
会议
<正>随着人口的膨胀,不可再生资源的过量消耗以及经济发展所造成的生态恶化,迫使人们不得不重新考虑其生存环境以及应如何实现可持续发展。一些经济后发地区对于环境破坏、不
会议
教育科学技术的发展改善了人类的物质生活条件,也对环境造成了污染。学习化学的目的之一,是要用化学知识进行环境治理。在教学中可以结合空气、水的污染和防治,水与人类的关
气湿是空气湿度的简称,它是衡量空气潮湿程度的物理量,常用水气压、绝对湿度、相对湿度和露点等指标来表示,生产上普遍采用相对湿度.
随着高等教育和人事管理体制改革的发展和深入,高校人事档案工作有了新的内涵,旧的高校人事档案管理模式已不能适应时代发展的要求。选择怎样的契合各自实际的新管理模式,有
[目的]探讨HIV母婴传播的预防策略。[方法]选择55例要求生育的妊娠合并HIV感染的孕产妇,给予综合干预:对HIV阳性母亲在围生期综合应用抗逆转录病毒药物,实施选择性剖宫产,避免产
一 1900年5月,自道士王圆 在敦煌莫高窟藏经洞(今编号第17窟)内发现了大批已幽闭了长达900年之久的我国从4世纪到11世纪的各种写经、刻本、文书、档案、绢画、织绣品等大量文物,共约有五万余