论文部分内容阅读
在人们对快速、准确获取信息的需求下,搜索引擎和检索方式不断地更新迭代。一方面,伴随着数字化产业的蓬勃发展,产生出了越来越多有待开发的数字资源。另一方面,伴随着自动问答技术的发展,用户已不再满足于关键字匹配的查询,开始寻求更简洁、准确的检索引擎。中国历代人物传记资料库就是数字化产业的冰山一角,如何将数字化的产物倾注智能问答的灵魂,使得合成的产品更好地为用户服务,本文进行了初步的研究与探索。本文研究了推理补全缺失关系的方法,设计并实现了一个基于知识图谱的人物亲属关系自动问答系统,解决了搜索引擎不支持自然语言检索,返回结果不简洁的问题。本文的主要工作如下:第一,研究了知识库表示学习中的翻译模型,通过现有多种翻译模型的对比实验,找出一种合适的知识库表示方法,实现了历史人物亲属关系自动推理,有效解决了中国历代人物传记资料库中人物亲属关系大量缺失的问题。之后对比分析了人物亲属关系推理补全前后的结果,以及产生推理错误可能的原因。第二,改进了翻译模型。翻译模型是将知识库中的实体和关系转化为低维向量的方法。本文在现有翻译模型的基础上,通过改进负采样的方式融合实体特征,使得实体和关系向量在空间上分布更加合理,更加具有表现力,通过实验证明此方法能有效提高关系推理的准确性,其可行性在中国历代人物传记资料数据中得到有效验证。第三,利用改进了的翻译模型方法,设计并实现了一个中文历史人物亲属关系自动问答系统。该系统以中国历代人物传记资料库(CBDB)为语料来源,将存储于access关系型数据库中的中文历史人物亲属关系,转化为通过Neo4j图数据库存储的人物亲属关系知识图谱,便于可视化展示与分析人物关系。针对用户提出的自然语言的问题,本系统利用自然语言处理相关技术生成问题三元组,然后转换为Cypher查询语句在图数据库中查询、或利用人物关系推理返回问题答案。