论文部分内容阅读
我国人口基数之大、参加高考热情之高,决定了阅卷老师的压力非比寻常。加之语文试卷的作文判卷具有较大的主观性,而且这个庞大的人工阅卷队伍其教育背景与个人偏好等因素很大程度上影响着判卷的客观性,致使作文阅卷成绩有较大的主观性和波动性。语文科目是高考中重要科目,对考生的入学影响较大,而主观性的作文成绩对考生的影响不能忽略。为达到高效阅卷与消除不同阅卷人之间的差异,开发基于计算机技术的高考语文练习与自动阅卷系统,对于语文教学和人才选拔来说有着重要的现实意义。在我国,语文阅卷和英语阅卷差异性较大,主要是两种语言特点不同,以及对考生而言前者是母语后者是外语,对其语言要求也不尽一样。两种系统在算法设计上、系统开发上都有较大的差异。因此,针对语文自动阅卷的研究虽然可以借鉴国际上已经取得的自动阅卷技术与成果,但更要研究汉语自身的特点和中国学生的特点。在高考语文阅卷中,作文阅卷最为复杂。研究专门针对我国学生的汉语言作文阅卷算法是本文的核心内容。本文主要研究内容及工作如下:1、研究分析基于内容判分的作文分数预测系统可靠性。通过关键词提取算法TextRank和主题抽取方法TF-IDF对作文文本特征进行提取并进行预测,结果表明仅基于内容进行作文判分并不可靠。2、提出嵌入语言深度感知的作文特征。通过对高考语文作文语感的分析,提出了作文的上下文关联、作文语句流畅度、作文素材使用量等文本特征并进行了实验。实验表明将语感特征进行量化分析并应用于语文作文的自动评分是有益的。3、研究高考语文模拟平台的阅卷实现。经过对考试的考核要求分析,将阅卷方法分成三种。将作文评分视为一个回归问题,探索多元线性回归、树回归、支持向量回归、梯度提升决策树回归等多种回归方法对评分的适用性,提升了系统的准确性和可靠性。本文基于Java语言和SSH技术对模拟平台以及相应的阅卷方法进行开发和实现,平台的评分系统比仅基于内容主题的作文自动阅卷更加贴合人类阅卷。