面向文物领域的知识图谱构建技术研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:dragongreen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博物馆作为文物保护与传承的载体,承载着人类数千年的文明。在蓬勃发展的物联网和人工智能等技术的驱动下,智慧化建设成为博物馆界关注的热点。然而,由于文物资源种类多数量大,以及互联网相关文物数据的多源异构性,使得博物馆智慧化建设中对文物信息资源管理与利用存在以下两个问题:文物信息资源缺乏有效组织和文物数据之间缺乏有效联系。文物知识图谱挖掘文物事实,利用文物间潜在的联系形成三元组,构建文物知识库,实现文物的有效组织,为文物资源的融合与共享提供基础。同时,文物知识图谱对延展文物知识,丰富文物展陈方式,促进智能问答、语义搜索和智慧导览项目的开发,提升博物馆智慧化服务具有重要意义,其研究吸引了大量研究者关注。文物知识图谱的构建虽已涌现出诸多相关研究,但仍面临以下挑战:(1)文物实体抽取任务中,有监督的方法需要大量标注数据,但构建大规模文物标注数据费时耗力,另外,中文文物实体数据构词具特殊性。(2)文物关系抽取任务中,文物数据存在多重关系,同时文物领域文本关键词具稀疏性。(3)文物实体对齐任务中,百科类网站文物数据具多源异构性,现有的仅从单一的字符或词语层面获取实体相似度的实体对齐方法精确率相对较低。(4)文物知识图谱补全任务中,文物实体间存在隐含关系,以及文物领域具隐含关系的标注三元组相对缺乏。本文针对以上挑战,开展了面向文物领域的知识图谱构建技术研究,主要探讨了文物实体抽取、关系抽取、实体对齐、知识图谱补全等问题,为文物知识图谱构建提供理论和技术支持。本文主要工作和贡献如下:(1)提出一种基于自训练算法的半监督文物实体抽取方法。首先,为解决文物文本构词特殊性问题,使用ELMo语言模型生成词表示,动态提取实体上下文特征;其次,为实现全局最优的标签序列预测,利用BiLSTM和CRF模型实现特征提取和实体标注;最后,为提高模型的性能,设计一种基于双重标注样本选择策略的自训练算法,通过双重标注选取高置信度的样本。实验结果表明,本文提出的方法利用50%的标注数据在文物实体抽取任务上取得了较好的效果。(2)提出一种基于词注意力机制的胶囊网络文物关系抽取方法。首先,为同时获取语义和语序信息,融合字、词嵌入以及词性和词语位置信息作为模型的输入,以有效捕获语义和语序特征;其次,为解决文物文本关键词稀疏性的问题,设计一种基于词注意力机制的动态路由算法,赋予信息词较高权重,迭代修正连接强度来解决关键词稀疏问题;最后,为解决实体间多重关系问题,利用转换矩阵对胶囊实例化参数预测。实验结果表明,本文提出的方法有效实现了文物领域多重关系的提取。(3)提出一种基于多特征相似度的文物实体对齐方法。首先,针对百科网站文物数据的多源异构性,提取实体属性、实体摘要和实体全文特征,并计算其相似度,分别从字符、词语和句子层面获取实体特征;其次,为了提高实体对齐的精确率,融合实体属性、实体摘要和实体全文特征相似度构建文物实体对齐模型;最后,通过阈值判断两个实体是否对齐。实验结果表明,本文提出的方法在三类文物实体的对齐任务中的精确率分别提高了2.11%,4.98%和4.18%。(4)提出一种融合实体类型的BERT文物知识图谱补全方法。首先,为有效获取实体丰富的语义信息,融合实体类型这一外部知识,使模型消除违反类型约束的反例,实现文本语义增强表示;其次,为有效识别隐含关系,解决关系稀疏性问题,使用多头注意力机制获取文本特征;最后,使用大量无标注数据预训练BERT模型,少量标注文物三元组对模型微调,解决文物领域标注三元组缺乏问题。实验表明,本文提出的方法使用35%标注数据在文物知识图谱补全任务中取得的结果优于对比方法。
其他文献
当前我国教育性别公平研究由起点公平向过程公平逐渐深入。幼儿教师承担着促进学前教育公平的重要角色。成人持有的性别观念与性别公平教学相关联,并通过言语、非言语等行为直接或间接地影响不同性别幼儿的成就动机与心理健康等方面。性别刻板印象会对幼儿的认知、情感、意志、行为、兴趣以及职业的选择等产生影响,同时也会影响幼儿的身心健康、人格的建立、与性有关的态度及社会适应能力。环境对
号学校代码10700-学号I2180620027硕士学位论文(学术学位)基于用户行为的话老塑智能门锁设计方法研究王金應学科门类:艺术学一级学科:设计学
学位
Bacterialsurfacepolysaccharidesareoftenstructurallyuniqueandimmunologicallyactive,havebecomeattractivemoleculartargetsinthedevelopmentofantibacterialvaccines.Synthesizingpureandwell-ch
教育硕士学位论文深度学习视阈下的小学第二学段数与代数教学设计研究张洪梅闽南师范大学二○二一年六月学校代码:10402学号:2019041008分类号:密级:教育硕士学位论文深度学习视阈下的小学第二学段数与代数教学设计研究学位申请人:张洪梅
学位
在鞑靼语中,突厥的意思是勇敢,它也是土耳其名字的由来。毫无疑问,这是个勇敢人的国度。勇敢,对于我们一个崇尚中庸之道的国家来说,可能更多的时候体现在内心的勇敢。我们从小就被教育着要包容,忍让,要考虑周围人的看法,好像这真的只是唯一的活法?过多在意他人眼光,午夜梦回的时候,有没有悔恨过自己所失去的,抛弃的与放弃的?
期刊
全日制硕士学位论文申请人姓名:张忆雪指导教师:南大伟学位类别:法学硕士专业名称:马克思主义理论研究方向:中国传统文化与思想政治教育研究
学位
采用问卷调查法,文献资料法,对大庆石油学院、八一农恳大学的体育特长生及大庆师范学院体育专业学生中的投掷运动员的损伤情况进行了调查研究。结果表明投掷项目根据各专业的技术特点对运动员产生不同部位的运动损伤,其中腰部和膝关节的受伤比率较高。受伤原因为技术动作错误和准备活动不充分还有局部负荷过大为主要。
分类号:F812.7单位代码:10422密级:公开学号:201710390龜
学位
车身的概念设计阶段是车身结构设计中保证性能的重要阶段,在设计的早期对车身的结构进行预测性的设计和分析,可以减少在后续的开发过程中的风险,并且缩短整个设计周期。在概念设计阶段,为了快速评估车身结构设计方案,缩短设计周期,快速建立参数化的车身概念模型成为一个关键问题。本文基于深度学习方法,提出了一种基于车身设计草图快速建立车身结构概念模型方案,并自主开发出了参数化车身概
生物课的学习难度对不同学生来说是不同的,合作学习是未来的课堂实践学习的发展趋势,但是当前合作学习的存在许多应用困难,在实践学习中的应用效果并不理想。发现高中生物教学合作学习中存在的困难,学生的合作学习能力较低,可以结合高中生物教学中合作学习的具体情况,进行分析研究高中生物教学中的合作学习情况。