论文部分内容阅读
水泥工业的智能化对水泥生产尤其是水泥熟料生产至关重要,由此将水泥熟料生产领域的知识信息化,构建一个水泥熟料生产领域的知识图谱是一个亟待解决的问题。由于水泥熟料生产领域的知识量巨大且涉及范围很广,在广泛研究、项目积累以及与领域专家讨论基础上,构建术语库并搜集水泥熟料生产领域的数据。结合搜集的水泥熟料生产领域的数据,进行实体识别和实体关系抽取来提取数据中的知识信息,再将提取的知识构建成水泥熟料生产领域的知识图谱。本文的主要工作如下:
(1)建立水泥熟料生产领域的术语库;将搜索关键词结合术语库生成新搜索关键词,从知网和水泥企业网站搜集数据,使搜索更有针对性,并给出了相应爬取算法;针对水泥熟料生产语料中词实体的边权值和词信息,通过改进TextRank算法实现从搜集的数据中提取新的术语,并将其加入到术语库中。
(2)针对水泥熟料生产领域中实体的多粒度的问题,融合预训练语言模型等外部知识,提出了基于术语库和BERT-BiGRU-CRF的实体识别模型。在此基础上采用记忆网络组件来提取不同数据源语料的语义特征,提出了基于记忆网络的实体识别模型。本文模型与CRF、BiLSTM和BiLSTM-CRF模型进行对比实验,结果表明本文提出的实体识别模型在水泥熟料生产领域的实体识别任务中具有一定优越性。
(3)针对数据中的段落,在水泥熟料生产的实体关系抽取任务中,首先使用依存句法进行关系抽取,提取水泥熟料生产三元组。为充分利用实体位置信息以及长序列信息,采用以实体为边界分割句子,用CNN分段池化并加入注意力机制来提取更大范围的特征,提出PCNN-Attention实体关系抽取模型。实验结果表明提出的模型优于CNN、PCNN、BiLSTM-Attention模型。
(4)提出基于字符和语义向量的相似度的方法进行知识融合,并使用多层Transformer模型对抽取融合后的知识进行进一步挖掘以扩展知识三元组,最后将得到的知识三元组中的实体和实体关系连接起来以构建成水泥熟料生产领域知识图谱,利用Neo4j存储知识图谱,对其进行可视化展示,并提供了3种不同查询示例。
(1)建立水泥熟料生产领域的术语库;将搜索关键词结合术语库生成新搜索关键词,从知网和水泥企业网站搜集数据,使搜索更有针对性,并给出了相应爬取算法;针对水泥熟料生产语料中词实体的边权值和词信息,通过改进TextRank算法实现从搜集的数据中提取新的术语,并将其加入到术语库中。
(2)针对水泥熟料生产领域中实体的多粒度的问题,融合预训练语言模型等外部知识,提出了基于术语库和BERT-BiGRU-CRF的实体识别模型。在此基础上采用记忆网络组件来提取不同数据源语料的语义特征,提出了基于记忆网络的实体识别模型。本文模型与CRF、BiLSTM和BiLSTM-CRF模型进行对比实验,结果表明本文提出的实体识别模型在水泥熟料生产领域的实体识别任务中具有一定优越性。
(3)针对数据中的段落,在水泥熟料生产的实体关系抽取任务中,首先使用依存句法进行关系抽取,提取水泥熟料生产三元组。为充分利用实体位置信息以及长序列信息,采用以实体为边界分割句子,用CNN分段池化并加入注意力机制来提取更大范围的特征,提出PCNN-Attention实体关系抽取模型。实验结果表明提出的模型优于CNN、PCNN、BiLSTM-Attention模型。
(4)提出基于字符和语义向量的相似度的方法进行知识融合,并使用多层Transformer模型对抽取融合后的知识进行进一步挖掘以扩展知识三元组,最后将得到的知识三元组中的实体和实体关系连接起来以构建成水泥熟料生产领域知识图谱,利用Neo4j存储知识图谱,对其进行可视化展示,并提供了3种不同查询示例。