论文部分内容阅读
随着计算机技术的高速发展,计算机自动判卷系统在各种考试中有了广泛的应用,人们应用计算机后台判卷系统来实现对选择题和填空题等客观试题进行判卷,但是针对问答题或叙述题等主观题的自动判卷几乎没有实际应用。造成这种现象的主要原因是由于主观题判卷自然语言理解等理论与技术的发展到目前还很不完善。目前最主要的评判主观题的方法依然是手工处理,但使用这种方法就会受到多种因素的干扰,最终影响学生试卷的成绩。如何使用计算机技术来自动的对主观题进行判卷已经成为广大研究学者积极研究的方向。
研究如何利用计算机来实现主观题的自动判卷具有很大的理论意义和现实意义。一方面对主观题自动判卷的研究可以从理论上扩展自然语言处理方向,使其在理论上有更快的进步。另一方面,从实际教学角度来看,主观题的自动判卷系统可以减轻阅卷人的工作负担,在大规模考试的评判工作中其优点表现的更加明显。
本课题研究主观题的自动判卷系统的设计,通过对学生答案与标准答案的分析得到两者之间的相似度,使用同义词扩展和知网来实现句子的相似度计算。本文实现一个满足实际教学需求的主观题自动判卷系统,并在具体的相似度以及语义分析上有创新的算法实现。
本文着重从词语相似度计算以及句子相似度计算的角度来对主观题判卷进行分析。首先,基于知网,提出了一种面向语义、可扩展的词语相似度计算新方法,从信息论的角度出发,把知网义原间的相似度计算公式定义为共同部分与共同部分和相异部分之和的比值;并对概念词和非概念词以及对应的原子概念和组合概念作出区分;同时,引入参照概念用于组合概念的语义生成,实现了任意词语在语义层面上的相似度计算。然后,以组块为基本编辑单元,对编辑距离算法进行有效扩展,提出一种句子相似度的定量计算方法和对应的多项式时间算法。该方法使用组块来取代字符作为基本的编辑单元,根据组块之间的相似度计算替换代价,对不同类型的组块分别赋予不同的插入、删除代价;同时引入块交换操作来计算句子的语义编辑距离,并对距离进行归一化以计算句子的相似度。在不用经过复杂的句法分析的情况下,兼顾了句子结构和语义信息。最后,根据以上理论方法实现了计算机自动判卷系统。
本文通过实验分析,对词语的相似度计算以及对句子的相似度计算都达到了较好的准确性。在系统实现中还有一些需要解决的问题,例如句子间深层语义关系的表示以及语义的情感分析等,这项研究工作还需要不断地完善。在以后的研究工作中将着重满足实际考试系统的要求。