论文部分内容阅读
知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精准查询、深度理解与逻辑推理等能力。知识图谱由(实体,关系,实体)形式的结构化三元组为基本单位构成,从大规模的非结构化文本中抽取结构化的三元组知识来构建知识图谱,并融入实际自然语言任务是当前研究的热点问题。
从文本中获取三元组知识的常用方法是先识别实体,然后再进行关系抽取。本论文重点研究了实体间关系抽取的方法,提出了基于注意力机制的改进算法。针对行业应用,给出了从领域文本数据提取领域知识模型,建立知识图谱的可行方案,并通过安监领域的应用实践说明了方法的有效性。
本文的主要贡献包括以下3个方面:
(1)提出了基于特征级注意力的关系抽取模型。现有的关系抽取模型通常将不同类型的输入特征对句子语义关系的贡献视为一致的,忽略了根据上下文的不同,不同特征对关系预测的贡献是不相等的。由此本文的工作包括:a.基于特征级注意力机制:使用注意力机制来计算不同类型的输入特征对实体间关系的贡献,为编码层提供更合理的输入表示。b.考虑不同的注意力函数:对比研究了不同注意力打分策略对关系抽取模型的影响,以便选择最优的注意力函数。c.对比不同粒度的基线模型:在实验中比较了其它如:句子级、实体对级、词级等不同粒度的7种基线模型,实验结果表明,本文提出的特征级模型在AUC、F1值两项重要评价指标上均提升了约1.5%.
(2)提出了针对行业应用构建领域知识图谱的方案。建设细分行业的知识图谱,首先需要领域知识表示模式,传统方法依赖专家给出,代价大且主观性强。为了快速从大规模的非结构化领域文本提取知识表示模式,本文给出了一种半自动化的模式设计方法:使用主题抽取、聚类等自动化手段从部分文本中提取领域关键词以及语义聚集、包含关系,人工修正后重复此过程迭代完成了领域知识表示的模式设计。基于此方法本文在安监领域的法规文本上提取了知识表示模式,共7类实体、5种关系。图谱三元组抽取采用的是基于BERT语言模型的命名实体识别算法和本文提出的特征级注意力关系抽取算法,使用安监领域的法律条规文本建立了一个包含1,076条实例的安监知识图谱。为了提高中文实体识别的准确性,本文在中文标准评测数据集上对比了使用BERT替代编码层直接微调和继续使用编码层2种方案的实验效果差异,最后选择了直接微调的结构进行实现。
(3)实现了安监知识图谱的问答应用。本文使用安监领域数据构建了<问题,答案>对数据集,训练了一个问答模型。处理问答任务时,先通过问答模型匹配答案,再用知识图谱中对答案进行可视化的展示。
从文本中获取三元组知识的常用方法是先识别实体,然后再进行关系抽取。本论文重点研究了实体间关系抽取的方法,提出了基于注意力机制的改进算法。针对行业应用,给出了从领域文本数据提取领域知识模型,建立知识图谱的可行方案,并通过安监领域的应用实践说明了方法的有效性。
本文的主要贡献包括以下3个方面:
(1)提出了基于特征级注意力的关系抽取模型。现有的关系抽取模型通常将不同类型的输入特征对句子语义关系的贡献视为一致的,忽略了根据上下文的不同,不同特征对关系预测的贡献是不相等的。由此本文的工作包括:a.基于特征级注意力机制:使用注意力机制来计算不同类型的输入特征对实体间关系的贡献,为编码层提供更合理的输入表示。b.考虑不同的注意力函数:对比研究了不同注意力打分策略对关系抽取模型的影响,以便选择最优的注意力函数。c.对比不同粒度的基线模型:在实验中比较了其它如:句子级、实体对级、词级等不同粒度的7种基线模型,实验结果表明,本文提出的特征级模型在AUC、F1值两项重要评价指标上均提升了约1.5%.
(2)提出了针对行业应用构建领域知识图谱的方案。建设细分行业的知识图谱,首先需要领域知识表示模式,传统方法依赖专家给出,代价大且主观性强。为了快速从大规模的非结构化领域文本提取知识表示模式,本文给出了一种半自动化的模式设计方法:使用主题抽取、聚类等自动化手段从部分文本中提取领域关键词以及语义聚集、包含关系,人工修正后重复此过程迭代完成了领域知识表示的模式设计。基于此方法本文在安监领域的法规文本上提取了知识表示模式,共7类实体、5种关系。图谱三元组抽取采用的是基于BERT语言模型的命名实体识别算法和本文提出的特征级注意力关系抽取算法,使用安监领域的法律条规文本建立了一个包含1,076条实例的安监知识图谱。为了提高中文实体识别的准确性,本文在中文标准评测数据集上对比了使用BERT替代编码层直接微调和继续使用编码层2种方案的实验效果差异,最后选择了直接微调的结构进行实现。
(3)实现了安监知识图谱的问答应用。本文使用安监领域数据构建了<问题,答案>对数据集,训练了一个问答模型。处理问答任务时,先通过问答模型匹配答案,再用知识图谱中对答案进行可视化的展示。