论文部分内容阅读
在人工智能领域,自动解答高考题是一项很具挑战的任务。与一般事实性问答的问题不同,高考题带有很强的选拔性,其问题考察形式多变,其答案求解往往不能一步得到,通常需要做进一步的知识推理。在辅助解答高考地理题时,目前面临两个问题:第一是缺乏高度结构化的地理核心知识库,第二是地理问题表达形式多样,导致问题理解困难。针对以上两个问题,本文做了如下三个工作:(1)为解决高度结构化的地理核心知识库缺乏问题,本文构建了中文地理本体(Chinese Geographic Ontology,CGeoOnt)。该本体以人教版高中地理教科书为知识源,使用万维网本体语言(Web Ontology Language,OWL)为知识表示语言,以课本章节为知识体系,人工总结其核心地理概念、地理关系、地理考点,并将其表示为本体形式。同时,本文将构建的本体CGeoOnt与本体Clinga进行融合,得到一个更大规模的中文地理本体知识库。(2)为解决地理问题问法多样导致其难以理解问题,本文使用基于注意力机制的知识库问答模型。该模型以双向长短期记忆网络为基础问答模型,结合注意力机制对地理问题、答案进行表示。答案中每个词的向量生成,均结合其对问题各词的注意力权重分配,使答案可以更好的对齐问题中相应的关键信息,减弱无效信息的干扰,因此更易区分正确答案和错误答案。实验表明,该问答模型对于辅助解答地理高考题具有很好的参考和应用价值。(3)为解决中文地理问答模型在训练和测试中数据集缺失问题,本文从互联网收集了一个问法多样的中文地理问题集。本文使用百度问题推荐以及百度搜索API,以本体知识库高频核心知识三元组为数据源,依次访问到二十万个Web地理问题,然后半自动加人工挑选出其中的有效问题,再人工从知识库寻找问题答案,形成最终地理问答数据集。