基于句法结构的术语关系抽取方法研究

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:sevenff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网上的数据正在以指数的方式迅速增长,将互联网上内容丰富、形式多样的海量数据转化为知识并将其有效地存储和表示具有极其重要的意义。同时,伴随着自然语言处理技术的不断发展和成熟,从Web开放领域文本中抽取出有用的信息并以此构建知识图谱也成为可能。术语是在特定科学领域中使用的、相对固定的词或短语,可以用来正确标记各个专门领域中的事物、现象、特性、关系和过程,是科学研究和知识交流的有力工具。术语关系体现并表示了一个领域的核心知识,对理解学习领域知识、预测未来趋势具有重要的理论和现实意义。另外,术语关系也可以广泛应用到信息检索、自动问答系统、知识图谱构建等领域。然而,人工从大规模语料中抽取术语关系费时费力。因此自动或半自动抽取术语关系成为研究的热点。本文针对开放领域术语关系的获取进行了研究和探讨,提出了基于句法结构的术语关系抽取方法,并在此基础上构建医疗领域知识图谱,本文的主要贡献总结如下:(1)提出了高精度自举术语模板获取方法,在利用模板进行关系抽取的过程中,关系模板的质量直接影响着抽取结果的质量。我们充分利用Web数据的多样性进行自举迭代,将小规模的术语种子集扩展为大规模的术语关系库。并利用深度学习工具word2vec训练词向量并进行语义相似度计算,根据相似度排序,选择相似度最高的术语关系作为新的种子,其在一定程度上避免了传统自举方法中的语义漂移问题。(2)提出基于依存句法结构的术语关系抽取方法。该方法借助依存句法分析和语义角色标注技术,对语句的句法依存树进行最小子树裁剪,提取以动词为中心的具有语义依存关系的句子主干,使之既能涵盖术语关系的关键信息,又能减少依存句法分析错误所带来的噪音。通过对模板进行泛化,根据核心动词结合文本篇章分析对关系类别进行标注,并利用数据库进行结构化存储,实现快速查询。实验表明,基于句法结构的关系抽取方法能有效的利用结构化特征捕捉到术语语义关系。(3)提出多类型术语关系的知识图谱构建方法,知识图谱可以用结构化的形式描述客观世界的概念、实体、事件及其之间的关系,将信息转换成人类认知世界的形式。本文针对医疗知识图谱的特例研究,通过有效的知识整合解决了医疗数据中知识分散、异构、冗余和碎片化的问题。为机器进一步理解自然语言提供技术支持。为验证所提出方法的有效性,构建医疗领域知识图谱实例。实验结果表明,本文所提出的基于句法结构的术语关系抽取方法具有较高的实用性,实现了术语关系抽取、知识图谱构建过程中一定程度的自动化。
其他文献
通过外业调查取样、实验室燃烧测试,观察和测定火行为,研究滇中地区冲天柏人工林的可燃物特征及相应的火行为。结果表明,防火期内冲天柏林的地表可燃物种类单调、结构简单,灌
分析了路基工程病害的成因,并提出具体防治措施。
<正>这是一群即将或者已经踏入殡葬行业的人,这是一群克服了自身恐惧后敢于直面死亡的人,这是一群为死者在停留于世间的最后一刻提供服务的人。在常人眼里,与殡葬业如影随行
随着高校的扩招及金融危机的全球性爆发,新增的就业人口日益增多,大学生的就业形势趋于严峻。文中就对大学生就业产业影响的自身因素进行了分析,在此基础上与国外的大学生就
<正>理想的城市空气质量评估应遵循"质量状况"→"变化趋势"→"因果关系"的"三维分析模式",按照空气质量标准进行评估,给出完整、全面、科学以及更具管理意义的评估报告,并定
<正>祖辈家长是幼儿教育的重要参与者,也是家园合作的重要伙伴。目前许多幼教工作者认为祖辈家长有着难以克服的缺点,因此他们参与幼儿园活动的效果不佳。由此,笔者提出以下
锡盟农村牧区供水存在饮水不安全问题,主要原因是水质不符合国家《生活饮用水卫生标准》(GB5749)要求。特别是以分散居住的人口,饮水安全问题长期得不到解决,严重影响了人们的
阐述了混凝土结构耐久性问题的重要性,从混凝土材料、构件、结构三个层次介绍了钢筋混凝土结构耐久性的研究现状,提出了今后混凝土结构耐久性研究的发展方向。