论文部分内容阅读
近年来,随着自然语言处理技术的飞速发展,问答系统成为当前主流搜索引擎的一个不可或缺的功能。基于知识库的问答系统(Question Answering over Knowledge Base,KBQA)以知识图谱为知识源,通过将用户的自然语言问题转换为SPARQL结构化查询语言查询知识图谱并向用户返回结果。但是,目前中文知识图谱的资源相对匮乏,主流中文知识图谱存在数据类型未标注、三元组的客体未进行实体链接和分类体系不完整等问题,因而难以支持复杂的SPARQL查询,为中文KBQA的应用带来了困难。为改善这种状况,本文从以下几个方面开展了研究:1、对现有的中文知识图谱资源进行分析,重点分析了它们在支持复杂SPARQL查询方面存在的不足。然后基于分析结果,提出了一种通过中文知识图谱的融合来使知识图谱支持复杂SPARQL查询的方法。最后对融合后的知识图谱进行了评估。实验结果表明,融合后的知识图谱可以支持复杂SPARQL查询,有效改善了当前主流中文知识图谱中存在的问题。2、针对KBQA系统中事实型问题问答的一类基础问题——单实体关系问题展开研究,提出基于条件随机场(Conditional Random Fields,CRF)的中心实体识别方法和词向量与字符串相似度计算相结合谓词映射方法。实验结果表明,单实体关系问题的中心实体识别准确率和F1分数分别达到了89.14%和88.81%。问题谓词映射的准确率和MRR分别达到了93.41%和95.97%。3、本文基于融合得到的知识图谱开发了能够回答涉及单个实体关系问题的中文KBQA原型系统。在NLPCC 2016的KBQA数据集上的抽样测试结果表明,本文构造的中文KBQA原型系统整体正确率84.10%,MRR达到了86.29%。通过中心实体识别和问句谓词映射这两个重要的步骤,本文构建的KBQA原型系统能够以较高准确率回答中文的单实体关系问题。但是由于相关数据集的匮乏,目前系统不能回答复杂的事实型问题,这类问题的分析是将是下一步的研究工作。