论文部分内容阅读
从地理领域文本等非结构化数据中抽取实体和关系,为构建地理知识图谱、智能问答等应用提供了重要基础。由于地理领域标注语料资源较少,难以使用深度学习等依赖大规模标注语料的方法,利用知识库中的领域知识对地理语料库进行表示增强,可以有效缓解语料不足的问题。传统神经网络模型在处理一维序列、二维网格数据时表现优异,但不能很好地处理知识库等图结构数据。现有的实体关系抽取模型不能很好地处理语料库中多元实体关系的情况,而且大多采用“就近原则”,降低了实体关系抽取的效果。针对上述问题,本文在自动标注地理语料库的基础上,利用图注意力网络学习知识库表示,通过远程监督对语料库进行表示增强,提出基于长短期记忆模型和概率图的实体关系抽取方法,有效地提升了地理领域实体关系抽取效果。
论文的主要研究内容主要包括以下几部分:
1)提出了基于动态投影和关系路径的知识表示学习方法学习知识库隐性语义信息。知识库等结构化数据中含有丰富的领域知识和语义信息,传统的知识表示学习方法在表示复杂关系类型时准确性不足且忽略了实体间多步路径中的隐式关系,本文利用基于动态投影和关系路径的知识表示学习方法对知识库进行知识表示学习,将实体和关系表示为低维稠密向量,得到知识库实体关系的隐式语义信息。该模型相较于传统的知识表示学习方法模型简单,计算效率高,可以有效表示复杂关系类型。
2)应用图注意力网络学习知识库中显式关联性知识和结构信息,并对地理领域语料库中的实体进行表示增强。传统的神经网络在处理一维或二维数据时表现优异,但在处理图结构数据得到的图嵌入表示效果不佳,本文应用图注意力网络模型来学习知识库中实体关系间显式的关联性知识。借鉴远程监督的思想,如果语料库中的实体对在知识库中存在,则将知识库学习到的对应的实体表示的结果作为先验特征传入到模型中,与模型编码层学习到的文本表示进行拼接,得到新的文本表示。实验表明,知识库中的领域信息有效地提升了地理领域实体关系抽取效果,F1值大约提升0.85左右。
3)设计了更加有效融入语义信息的字词混合向量特征,提出了基于双向长短期记忆模型和概率图的地理领域实体关系抽取模型。使用自然语言处理工具产生词向量时会产生并传播误差,而字向量包含的语义信息有限,因此本文采用更加有效融入语义信息的字词混合向量特征。双向长短期记忆模型结合注意力机制可以有效地获取文本上下文依赖信息从而得到文本的高级特征。针对语料中多个实体、多个关系的情况,本文利用类似seq2seq的概率图思想,先抽取头实体,遍历头文本中得到的实体序列并选取其中一个头实体,遍历关系,来抽取尾实体。实验表明,相较于目前的实体关系抽取方法,基于双向长短期记忆模型和概率图的地理领域实体关系抽取模型取得了较好的结果。
论文的主要研究内容主要包括以下几部分:
1)提出了基于动态投影和关系路径的知识表示学习方法学习知识库隐性语义信息。知识库等结构化数据中含有丰富的领域知识和语义信息,传统的知识表示学习方法在表示复杂关系类型时准确性不足且忽略了实体间多步路径中的隐式关系,本文利用基于动态投影和关系路径的知识表示学习方法对知识库进行知识表示学习,将实体和关系表示为低维稠密向量,得到知识库实体关系的隐式语义信息。该模型相较于传统的知识表示学习方法模型简单,计算效率高,可以有效表示复杂关系类型。
2)应用图注意力网络学习知识库中显式关联性知识和结构信息,并对地理领域语料库中的实体进行表示增强。传统的神经网络在处理一维或二维数据时表现优异,但在处理图结构数据得到的图嵌入表示效果不佳,本文应用图注意力网络模型来学习知识库中实体关系间显式的关联性知识。借鉴远程监督的思想,如果语料库中的实体对在知识库中存在,则将知识库学习到的对应的实体表示的结果作为先验特征传入到模型中,与模型编码层学习到的文本表示进行拼接,得到新的文本表示。实验表明,知识库中的领域信息有效地提升了地理领域实体关系抽取效果,F1值大约提升0.85左右。
3)设计了更加有效融入语义信息的字词混合向量特征,提出了基于双向长短期记忆模型和概率图的地理领域实体关系抽取模型。使用自然语言处理工具产生词向量时会产生并传播误差,而字向量包含的语义信息有限,因此本文采用更加有效融入语义信息的字词混合向量特征。双向长短期记忆模型结合注意力机制可以有效地获取文本上下文依赖信息从而得到文本的高级特征。针对语料中多个实体、多个关系的情况,本文利用类似seq2seq的概率图思想,先抽取头实体,遍历头文本中得到的实体序列并选取其中一个头实体,遍历关系,来抽取尾实体。实验表明,相较于目前的实体关系抽取方法,基于双向长短期记忆模型和概率图的地理领域实体关系抽取模型取得了较好的结果。