论文部分内容阅读
博物馆作为文物保护与传承的载体,承载着人类数千年的文明。在蓬勃发展的物联网和人工智能等技术的驱动下,智慧化建设成为博物馆界关注的热点。然而,由于文物资源种类多数量大,以及互联网相关文物数据的多源异构性,使得博物馆智慧化建设中对文物信息资源管理与利用存在以下两个问题:文物信息资源缺乏有效组织和文物数据之间缺乏有效联系。文物知识图谱挖掘文物事实,利用文物间潜在的联系形成三元组,构建文物知识库,实现文物的有效组织,为文物资源的融合与共享提供基础。同时,文物知识图谱对延展文物知识,丰富文物展陈方式,促进智能问答、语义搜索和智慧导览项目的开发,提升博物馆智慧化服务具有重要意义,其研究吸引了大量研究者关注。文物知识图谱的构建虽已涌现出诸多相关研究,但仍面临以下挑战:(1)文物实体抽取任务中,有监督的方法需要大量标注数据,但构建大规模文物标注数据费时耗力,另外,中文文物实体数据构词具特殊性。(2)文物关系抽取任务中,文物数据存在多重关系,同时文物领域文本关键词具稀疏性。(3)文物实体对齐任务中,百科类网站文物数据具多源异构性,现有的仅从单一的字符或词语层面获取实体相似度的实体对齐方法精确率相对较低。(4)文物知识图谱补全任务中,文物实体间存在隐含关系,以及文物领域具隐含关系的标注三元组相对缺乏。本文针对以上挑战,开展了面向文物领域的知识图谱构建技术研究,主要探讨了文物实体抽取、关系抽取、实体对齐、知识图谱补全等问题,为文物知识图谱构建提供理论和技术支持。本文主要工作和贡献如下:(1)提出一种基于自训练算法的半监督文物实体抽取方法。首先,为解决文物文本构词特殊性问题,使用ELMo语言模型生成词表示,动态提取实体上下文特征;其次,为实现全局最优的标签序列预测,利用BiLSTM和CRF模型实现特征提取和实体标注;最后,为提高模型的性能,设计一种基于双重标注样本选择策略的自训练算法,通过双重标注选取高置信度的样本。实验结果表明,本文提出的方法利用50%的标注数据在文物实体抽取任务上取得了较好的效果。(2)提出一种基于词注意力机制的胶囊网络文物关系抽取方法。首先,为同时获取语义和语序信息,融合字、词嵌入以及词性和词语位置信息作为模型的输入,以有效捕获语义和语序特征;其次,为解决文物文本关键词稀疏性的问题,设计一种基于词注意力机制的动态路由算法,赋予信息词较高权重,迭代修正连接强度来解决关键词稀疏问题;最后,为解决实体间多重关系问题,利用转换矩阵对胶囊实例化参数预测。实验结果表明,本文提出的方法有效实现了文物领域多重关系的提取。(3)提出一种基于多特征相似度的文物实体对齐方法。首先,针对百科网站文物数据的多源异构性,提取实体属性、实体摘要和实体全文特征,并计算其相似度,分别从字符、词语和句子层面获取实体特征;其次,为了提高实体对齐的精确率,融合实体属性、实体摘要和实体全文特征相似度构建文物实体对齐模型;最后,通过阈值判断两个实体是否对齐。实验结果表明,本文提出的方法在三类文物实体的对齐任务中的精确率分别提高了2.11%,4.98%和4.18%。(4)提出一种融合实体类型的BERT文物知识图谱补全方法。首先,为有效获取实体丰富的语义信息,融合实体类型这一外部知识,使模型消除违反类型约束的反例,实现文本语义增强表示;其次,为有效识别隐含关系,解决关系稀疏性问题,使用多头注意力机制获取文本特征;最后,使用大量无标注数据预训练BERT模型,少量标注文物三元组对模型微调,解决文物领域标注三元组缺乏问题。实验表明,本文提出的方法使用35%标注数据在文物知识图谱补全任务中取得的结果优于对比方法。