论文部分内容阅读
英语教育越来越受重视,写作是其中的重要一环,自动作文评分可以解决传统人工阅卷的很多问题,比如可以减轻老师的工作量,加快学生写作的反馈,提升考试的公平性等,吸引了许多学者的研究。自动作文评分系统并不能真正理解作文,而是通过构建能反映词语、句子和篇章等各种尺度的特征来间接评估作文分数,因此,挖掘出隐藏在数据中的更深层次特征对提升系统效果有很大的影响。一篇好的文章总是有一个特殊的高层逻辑及主题结构,其中实际的单词和句子选择以及它们之间的排列都是为这个高层结构服务的,因此一篇文章的语句通顺度可以作为自动作文评分的重要指标。作文范文中存在大量词汇、语法和语义信息,通过计算学生答案与范文的文本匹配度,使得对作文的评判多了一种重要的结合结构和语义信息的深层次参考标准。本论文的主要研究内容和创新之处如下:(1)我们提出了一种融合多特征的深度语句通顺度计算算法。针对传统方式词向量表示粗糙,不能发现无关词和句子的问题,我们引入外部知识为训练过程添加先验信息,针对知识库的知识表示学习可以学习到词语的知识信息;词语的同义词表示可以帮助更好地解决一词多义问题;通过将依存关系嵌入结合进来,可以更好地建模文本的语法信息。同时针对传统方式使用相似矩阵的方式建模句子间的关系复杂度较高且效率低的问题,我们引入了自注意力机制考察当前类型句向量和其他句向量之间的关系,实验表明,我们提出的算法有较好的效果。(2)我们提出了一种基于图神经网络的文本语义匹配度计算算法。相比传统神经网络,图神经网络已经在许多领域证明了可以学习到更加复杂而隐蔽的特征。我们使用图卷积网络来建模长文本之间的匹配关系,采用分而治之的思想,将文章的句子分配到每一个节点,形成“概念”,使用一种网络度量文档部分句子的相似度特征作为节点的特征向量表示,经过图卷积网络的训练,得到整个文档的相似度信息。同时我们使用递归自编码器对句向量进行了预训练,由此考虑到更多的句子结构性特征,实验验证了我们提出的算法的有效性。(3)我们将语句通顺度和文本匹配度这两种深层特征融合到了深度自动作文评分算法当中,在LSTM层和多层感知机层分别融合语句通顺度向量和文本匹配度向量,相比传统方式效果有了较明显的提升。