论文部分内容阅读
近年来,互联网上有着大量的公开信息,有些信息有着巨大的应用价值。其中,特定科技领域(特别是国防科技领域)的专利、技术报告和新闻报道等文献中蕴含着大量有价值的科技信息,抽取这些科技信息有利于我国的国防科技建设。所以,如何快速有效地抽取并利用特定科技领域的信息,是一个值得研究解决的问题。特定科技领域的特殊实体(如技术、术语等)是该领域信息抽取的基础,对该领域中科技类实体间关系的抽取和科技类知识图谱的构建等方面有着重要的研究意义。目前,尽管命名实体识别技术已经日臻成熟,在诸如生物医学等多个领域均有所应用,但面向特定科技领域的技术和术语识别方法与通用领域以及医学领域有着明显区别,并且目前尚未有面向特定科技领域的标注语料资源。因此,本文重点研究特定科技领域的技术和术语识别问题,研究内容分为以下三个方面:(1)针对特定科技领域语料资源匮乏的问题,本文构建了面向特定科技领域的技术和术语语料库。首先,基于该领域的海量国防科技文本,以维基百科中的国防科技领域新技术为基点采集语料,涵盖了新闻、文献(如论文和专利等)和维基百科三种体裁。其次,在分析国防科技文本特点的基础上制定了一系列标注规范,展开了大规模语料标注。再次,对构建的语料库进行了数量统计和质量分析,共标注了 479篇文章,包含24487个句子和33756个技术和术语,标注一致性良好。最后,对比了本文构建的语料库与目前研究常用的语料库,表明其规模可适用于面向特定科技领域的技术和术语识别研究工作。(2)针对传统单词特征难以将技术和术语特点表示完全的问题,提出了基于子词单元和语言学特征的技术和术语识别方法。首先,探索了子词单元在传统序列标注Bi-LSTM+CRF模型上的应用。此外,针对任务的特点提出了适用于技术和术语识别的语言学特征。基于标注语料库的实验结果表明,技术和术语识别的F1值达到71.80%,较基准系统提升了 3.04%,能够较好的识别出面向特定科技领域的技术和术语。(3)针对子词与单词的进一步融合问题,提出了基于子词图网络的技术和术语识别方法。首先,提出了三种单词-子词交互图以更加灵活地获取单词与其子词之间的联系。其中,单词-子词包含图可以捕获单词中每一个子词的语义信息;单词-子词三角图能够获取子词的整体语义信息;单词-子词上下文图可获取单词的上下文信息及其相邻的上下文子词的语义信息。然后,应用图注意力网络模型对三种单词-子词交互图进行建模。基于标注语料库的实验结果表明,提出的三种单词-子词交互图均能够通过子词增强单词的语义表达能力,F1值分别较基准系统提升了 1.57%、1.82%和 0.53%。本文构建面向特定科技领域的技术和术语语料库,并提出有效的技术和术语识别方法,同时探索了图结构在技术和术语识别上的应用,为特定科技领域信息抽取的进一步研究打下基础。