作文自动评分关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:vazumi126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
写作是大规模语言考试中用于衡量应试者语言知识和词语组织能力的重要途径,然而基于人工评分的方法存在以下缺点:一是耗费巨大的人力、物力、财力。二是评分的主观性强、误差大。随着自然语言处理技术的发展,其在词性标注、句法分析等方面都取得了突破性的进展,基于统计和自然语言处理技术的作文自动评分方法不断涌现。传统的作文自动评分方法从词汇、中心思想和组织结构等方面抽取特征,并采用线性回归等简单模型进行训练,其中抽取的特征按是否考虑词的含义分为非文本特征和文本特征。这种方法存在的问题是:将各类特征简单累加在一起并不一定能获得最好的效果,同时线性回归等简单模型无法很好的挖掘特征的非线性关系,并且抽取特征时很少考虑文中的语义信息。本文主要从作文用词的多样性角度进行评分,具体从模型选择和词多样性特征抽取两个方面进行研究,主要研究内容包括以下3个方面:第一,本文从词层面和句子层面构建了非文本特征,并对比随机森林回归模型和作文评分中常用模型在非文本特征上的效果。随后通过增量式特征组合的方式验证各类特征表现力并得到最优的非文本特征组合。针对非文本特征未考虑文章内容,评分信度不高且其评分机制很容易被识破和利用的问题,构建了基于LDA主题模型的文本特征,实验结果表明基于LDA的文本特征具有很好的效果。第二,为了衡量作文用词的多样性,需要尽可能准确的获取词的语义信息和词的语义相似度。本文使用了基于词向量的词表示方法,通过词向量聚类的方法将词按照语义信息进行类别划分,抽取作文在每个语义类别下的词分布情况作为作文的词多样性特征训练评分模型。针对词向量无法解决一词多义问题,将LDA主题模型和词向量方法进行融合,使用融合主题信息的词向量方法。在作文实验中使用经典的Brown词聚类方法与词向量聚类方法进行对比,实验结果表明融合主题信息的词向量方法能更准确的表示词的语义信息,在各类文本特征上取得了最好的效果。第三,本文实现了一个作文自动评分系统,使用上述的随机森林和融合主题信息的词向量方法实现系统的核心评分功能,并在此基础上加入相应的辅助功能实现一个功能完善的评分系统,其中通过对评分过程进行细化让用户对写作中的词、句子和内容相关性等各方面有充分了解,同时提供了优秀作文推荐和作文检索功能。
其他文献
随着计算机、网络、以及多媒体技术的迅猛发展,图像处理技术的研究与应用尤其是音视频编解码技术引起了更广泛的关注。同时,嵌入式系统继计算机网络技术之后成为IT领域又一个
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,
随着医疗信息化进程的不断发展,健康数据资料日益累积,传统医疗健康行业逐步迈入大数据时代。对健康大数据进行分析处理,不仅可以提供疾病预测、辅助诊断、决策支持,还能实现
近年来,物流产业飞速发展,更有效的配置物流资源以及更合理的个性化服务是提高物流产业竞争力的关键因素。这样首先要解决数据异构问题,然后针对不同的需求匹配相应的服务,达
移动Ad hoc网络是一种不依赖与固定设施的、自组织的无线网络,其组网方便、快捷,不受时间和空间的限制,既可应用于救援、会议、战场、探险或危险环境中的目标监控等场合,又可用于
大量计算机应用对于存储规模和性能的迫切要求导致基于商业化部件的存储集群系统产生和发展。存储集群将每个存储设备作为一个存储节点,所有的节点通过高速互联网络连接起来
远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。它利用物理位置上分离的存储设备所具备的远程数据连接功能,在远程维护一套数
随着网际网络的快速发展,Web生活与人们的日常生活休戚相关。然而网路环境复杂多变,用户的讯息很容易被截获和复制。认证用户身份的合法性,保护用户敏感数据隐秘性,将倍受关
语言模型(Language Model)是描述自然语言内在规律的数学模型,在机器翻译、语音识别、文字处理、信息检索等领域中占据着十分重要的地位。一个可靠的语言模型对于提高机器翻
随着Internet的迅猛发展,文本信息的数量也日益增加,文本信息的自动处理也变得越来越重要。文本分类作为自然语言处理的一个基本问题,是文本信息处理中的一项主要技术,受到文