论文部分内容阅读
随着人工智能及大数据技术的快速发展,以其为支撑的智慧教育模式逐渐成为教育信息化发展的主流和学术界的研究热点。自动评分是智慧教育领域的一项重要内容,针对此研究已经有学者提出很多解决方法,但这些方法普遍不能较好适应于面向主观题的短答案自动评分。同时,随着各类在线考试越来越多,其中针对短答案的人工评分工作也越来越繁重,如果能用计算机自动完成这一项工作,不仅可以大大节省教师的阅卷工作量,还能解决不同批阅人的主观性引起的评分不一致问题。此外,十九大报告中也明确指出:“建设教育强国是中华民族伟大复兴的基础工程,必须把教育事业放在优先位置,加快教育现代化,办好人民满意的教育。”因此,本文围绕短答案自动评分开展研究不仅可以完善现有的自动评分系统,还能丰富智慧教育的应用场景,并能促进教育现代化的快速发展。本文对国内外自动评分研究发展进行回顾,分析了短答案数据的特点和现有方法的不足;针对数据中学生答案文本长度短、重复句多、噪声大、容易出现分词错误等特点提出基于字符级RCNN模型的自动评分框架,针对现有方法普遍忽略了语料库中的词共现信息和样本间全局交互信息的现状提出基于GCN模型的短答案自动评分方法;最后分别在中文数据集和公开的SemEval-2013英文数据集上进行了多类实验。论文主要工作包括:第一,针对学生答案文本长度短、重复句多、噪声大、容易出现分词错误等特点,构建了基于字符级RCNN模型的自动评分框架。首先基于学生答案和问题考察点构建答案文本库、非法词表和题目考察概念表,通过规则匹配策略对特征明显的学生答案进行评分;然后将特征不明显的学生答案输入字符级RCNN模型,该模型以单字符串作为输入序列,既可以避免分词结果不准确带来的错误传导问题,同时利用字符的分布向量表示方法还可以获取句子的深层语义信息。最后,基于提出的字符级RCNN模型设计与实现了简答题自动评分系统,通过与多个经典文本分类模型的实验结果相比,该模型得到了更好的性能。第二,为了学习语料库中的词共现关系和样本间的全局交互信息,提出基于GCN模型的短答案自动评分方法。典型的短答案自动评分方法通常基于机器学习和神经网络模型,前者过度依赖手工设计的特征,受限于可扩展性和较高的成本,后者忽略了语料库中的词共现关系和样本间全局交互信息。然而,短答案自动评分常常需要全局信息来学习相同意思的多种表达以及不同表达与评分标签之间的关系,因此本文尝试利用两层GCN(图卷积神经网络)来对所有学生答案构成的异质文本图进行编码。异质文本图中有句子、词汇和词组(word/bigram)级节点,根据节点间的包含关系或共现关系在它们间构造连边,通过句子级TF-IDF值或PMI值作为边的权重表示两个节点之间的关联强度。分别在中文数据集及公开的Semeval-2013英文数据集进行了短答案自动评分实验,验证了模型的有效性。