论文部分内容阅读
当今社会随着科技的不断发展,人们在人工智能领域的研究也越来越深入。这些研究使得计算机能在在人类参与的各个智力活动项目中发挥出一定的良好表现。因此,人们不满足于现状,不断地尝试着新的人工智能挑战领域。而目前一项非常热门的人工智能挑战则是智能问答系统,特别是让计算机通过各种不同级别的入门考试。问答系统在目前的人工智能和自然语言处理领域中具有广泛发展前景。虽然问答系统经历了飞速发展,但是由于试题文本的特殊性,当前的主流自动问答系统中,计算机所要解答的问题一般是事实型问题,而高考试题通常是以选择题或简答题的形式出现。而问题理解是问答系统中的基础部分,只有正确全面的分析并理解问题,提取出问题的关键信息,才可能让计算机正确地回答问题。目前通用的问题理解和语义理解模型和算法并不能完全适用于此类数据,因此还需要通过针对此类数据对问题理解模型做进一步改进。在本文中,我们针对试题文本对目前的问题理解模型做出改进。首先,建立了地理高考试题的语料库,并通过人工观察总结出试题特点,提出了一种新型针对北京地理高考试题的基于类型-论元模板的问题理解模型。该模型对问题的形式进行分类,并对每种单独类型确定其多个关键成分,组成模板形式,便于后续解题步骤。其次,对模板自动转换进行建模,实现了基于序列标注模型的自动试题-模板转换。最后,为了提高转换的正确率,结合试题的句型特点实现了基于中文句型理论的规则自动试题-模板转换。实验结果表明,本文提出的类型-论元模板模型比传统的问题理解模型能够更好的表示北京高考地理试题文本,既不过于琐碎,又能完整保留关键信息,显著提高解题效率;基于统计学习方法的自动模板标注可以进一步提高模板转换效率;基于规则方法的试题-模板转换相对于基于统计学习方法的转换能进一步收集试题的句式和句法结构信息,从而提高模板转换的正确率。