短答案自动评分方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:ronglao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能及大数据技术的快速发展,以其为支撑的智慧教育模式逐渐成为教育信息化发展的主流和学术界的研究热点。自动评分是智慧教育领域的一项重要内容,针对此研究已经有学者提出很多解决方法,但这些方法普遍不能较好适应于面向主观题的短答案自动评分。同时,随着各类在线考试越来越多,其中针对短答案的人工评分工作也越来越繁重,如果能用计算机自动完成这一项工作,不仅可以大大节省教师的阅卷工作量,还能解决不同批阅人的主观性引起的评分不一致问题。此外,十九大报告中也明确指出:“建设教育强国是中华民族伟大复兴的基础工程,必须把教育事业放在优先位置,加快教育现代化,办好人民满意的教育。”因此,本文围绕短答案自动评分开展研究不仅可以完善现有的自动评分系统,还能丰富智慧教育的应用场景,并能促进教育现代化的快速发展。本文对国内外自动评分研究发展进行回顾,分析了短答案数据的特点和现有方法的不足;针对数据中学生答案文本长度短、重复句多、噪声大、容易出现分词错误等特点提出基于字符级RCNN模型的自动评分框架,针对现有方法普遍忽略了语料库中的词共现信息和样本间全局交互信息的现状提出基于GCN模型的短答案自动评分方法;最后分别在中文数据集和公开的SemEval-2013英文数据集上进行了多类实验。论文主要工作包括:第一,针对学生答案文本长度短、重复句多、噪声大、容易出现分词错误等特点,构建了基于字符级RCNN模型的自动评分框架。首先基于学生答案和问题考察点构建答案文本库、非法词表和题目考察概念表,通过规则匹配策略对特征明显的学生答案进行评分;然后将特征不明显的学生答案输入字符级RCNN模型,该模型以单字符串作为输入序列,既可以避免分词结果不准确带来的错误传导问题,同时利用字符的分布向量表示方法还可以获取句子的深层语义信息。最后,基于提出的字符级RCNN模型设计与实现了简答题自动评分系统,通过与多个经典文本分类模型的实验结果相比,该模型得到了更好的性能。第二,为了学习语料库中的词共现关系和样本间的全局交互信息,提出基于GCN模型的短答案自动评分方法。典型的短答案自动评分方法通常基于机器学习和神经网络模型,前者过度依赖手工设计的特征,受限于可扩展性和较高的成本,后者忽略了语料库中的词共现关系和样本间全局交互信息。然而,短答案自动评分常常需要全局信息来学习相同意思的多种表达以及不同表达与评分标签之间的关系,因此本文尝试利用两层GCN(图卷积神经网络)来对所有学生答案构成的异质文本图进行编码。异质文本图中有句子、词汇和词组(word/bigram)级节点,根据节点间的包含关系或共现关系在它们间构造连边,通过句子级TF-IDF值或PMI值作为边的权重表示两个节点之间的关联强度。分别在中文数据集及公开的Semeval-2013英文数据集进行了短答案自动评分实验,验证了模型的有效性。
其他文献
测绘新技术应用于地质工程的测量中,解决了以前一些地形无法测量的问题,同时也提高了测量精准度,在许多施工项目中,精准度决定了施工的时间长短和操作难度,所以测量工作至关
经权关系的处理及两难中的抉择,最能体现一种伦理学说的基础和实质,也揭示出一种伦理思想必然与关于人性和人的本质的哲学认识相关。以此为切入点,对孔孟思想能有更深刻的理解和
随着新型教育模式在线教育的提出与普及,更多的学习者有机会到在线平台上进行访问和学习,相应地,平台积累了海量教学行为数据和知识资源,为平台自身的更新与完善提供了良好的
随着科技的进步和互联网的普及,网络与我们的生活越来越密切,推动了网络购物(简称“网购”)市场的蓬勃发展。网购已经成为拉动消费的重要渠道,推动经济发展的新引擎。网购交
50年代初,中国共产党放弃原来建设一段新民主主义社会的理论和实践,提出并实施向社会主义过渡的过渡时期总路线,终于在1956年进入社会主义.这种改变不是中国共产党人的突发奇
河南林州市地处太行山东麓、红旗渠畔。全市共有人口100万,耕地70万亩,人多地少,山坡面积大,具有发展林果业的独特优势。这些年农村大多数青壮年劳力都在外地打工,再加上种地
所谓的分层教学方法就是教师在教学中,按照学生不同的性格心理、知识水平、接受和理解能力所采取的不同的教学模式,其目的是为了促进每一位学生的发展和提高,是在班级制授课
今年两会上.“城镇化”一词被频频提及,所受关注前所未有。温家宝在《政府工作报告》中对如何推进城镇化给出了政策指引,“要遵循城镇化的客观规律,积极稳妥推动城镇化健康发展”
从Fermat原理出发,导出单轴晶体内o和e光在界面上发生全反射现象时的公式,并对o光和e光的临界角进行讨论.