基于中文分词与文本相似度的主观题评分系统研究与实现

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:fangduohui129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术的发展,越来越多人开始关注智能阅卷方面的研究。现阶段的自动评分系统对于客观题如判断题、选择题以及填空题等固定答案的题型能够做出精准的评分,但对于主观题来说,目前主要是以人工评阅为主,并且在评阅主观题试卷时,可能会受到个人情绪、卷面排版以及身体劳累的影响评阅试卷的客观性和工作效率,因此主观题评分系统的研究对于智能化教育具有重要意义。本文提出基于中文分词和文本相似度的主观题评分系统研究,主要的工作如下:1、针对现有基于神经网络的中文分词模型,通常需要大量的标注句来进行模型训练等问题,本文提出了一种基于结合词典信息的中文分词模型,来充分地利用词典的有用信息,减少标记数据的依赖。通过设计伪标记数据生成以及多任务学习的方法,将字典信息加入到神经网络CNN-Bi GRU-CRF模型中进行训练,并在两个基准数据集PKU和MSRA上进行实验验证,其准确率分别达到97.6%和97.8%,实验结果验证了该方法可以有效地提高中文分词的性能。2、本文提出了一种改进的多模型文本综合相似度算法。首先,采用基于知识和语料库的混合算法来计算文本的术语相似度,通过引入动态VSM模型以及术语相似度来计算短文本的相似度;其次,提出一种基于选区解析树CPT的句法相似度算法,获得文本的句法相似度。针对句子相似度算法,提出了一种基于非线性加权TF-IDF算法、改进的Jaccard相似系数和Word2vec-CNN的句子相似度算法。算法整体上从短文本语义相似度、句法相似度以及句子的相似度综合考虑求得最终文本的相似度。实验结果表明,其准确率达到83.0%,召回率为90.0%,F1值达到了86.4%,相对与仅考虑句子相似度算法和文本的语义相似度算法的准确率分别提高了15.1%,5.7%。3、本文设计了基于主观题的自动评分系统,实现了各个模块的功能,系统以山西省某初中政治题试卷进行了训练与测试,与人工评改的结果进行了对比,实验证明系统在主观题评分中具有较好的表现,与人工评分的差异可以控制在一个相对合理的区间。
其他文献
在煤炭的转运过程中,输送带作为带式输送机上用来运输和承载物料的关键部件,其质量决定了运输任务的安全性和高效性,但断带事故时有发生。据统计,90%以上的断带事故发生在输送带接头硫化处。输送带一旦断裂,严重威胁一线人员的生命安全,且断裂后接头重新硫化过程需要数天时间,将会造成巨大经济损失,输送带剥皮发生在硫化胶接前。在新带和旧带连接之前都需要对输送带接头部位进行剥皮,分离出钢丝绳。目前剥皮工作采用人工
在医学临床诊断中,眼底视网膜存在着一定数量的毛细血管,其表征变化与许多疾病的并发症状有紧密联系,对这些血管的分布、形态的分析与研究是诊断部分眼部疾病和综合性疾病的重要依据之一。通过计算机对视网膜血管图像进行精准分割可以极大的减轻临床医生的工作量,提高分割任务效率、避免人为因素与主观因素影响,对医学辅助诊断具有深远意义。本文基于深度学习算法研究眼底视网膜血管的分割算法,设计了两种不同的网络模型,并在
伴随着科学技术的发展进步以及对交通运输需要的持续增加,大型桥梁在社会现代化中的作用也越来越突出。为了监测自然环境改变(如地震、地陷)或人为因素对桥梁各部分结构的影响,亟需提升桥梁健康监测及评估系统的实时性、整体性、准确性。因此对桥梁健康状态进行监测和评估具有重要意义。基于此,本文设计了一种多模式多节点桥梁健康监测及评估系统,并主要完成以下工作:(1)根据监测目标和内容,分析传感器的使用条件、安装方
在智慧矿山的建设进程中,对综采工作面进行监测有着至关重要的作用。综采工作面虚拟监测系统作为远程监测探索研究的一项重要内容,能够实现对综采工作面设备及环境的全局实时监测,但目前的研究更重视技术的突破和功能的叠加,而忽略对人机交互的探索,致使系统的识别效率低,易用性和易学性差,甚至存在功能残缺、容错性低的问题,从而导致系统用户体验不佳。本文通过交互设计的理论和方法对虚拟监测系统的交互逻辑和界面视觉进行
随着信息时代的到来,在人机交互中产生了大量的文本,音频,图像等非结构或半结构等形式存储的数据。其中文本数据居多,为了有效的提取文本中有价值的信息供人们使用,实体识别和关系抽取技术是自然语言处理领域的两项基本任务,旨在帮助人们挖掘出文本中具有实体意义的名称及其之间存在的关系,这对构建领域知识图谱,智能问答系统等具有重要的意义及价值。传统的关系抽取任务将实体识别和关系抽取分成两个独立的子任务,没有考虑
随着智能机器人技术的蓬勃发展,复杂场景下的定位与建图对传感器的要求也越来越高。根据不同传感器的特性,在应对不同场景时可以选择相应的传感器:单纯采用视觉传感器对场景的纹理特征以及运动速度有一定的限制,但是视觉传感器可以提供丰富的场景信息。双目立体相机既可以解决单目相机没有尺度的问题,又可以避免RGBD相机在室外被光照干扰的问题。GPS(Global Position System)可以实时获取自身的
物联网(Internet of Things,Io T)作为推动信息技术发展,加快产业更新的关键性技术,它通过无处不在的传感器节点,将人与物,物与物有机的关联起来,物品之间通过射频识别(Radio Frequency Identification,RFID)技术的桥梁实现自动识别。随着共享经济和物流快递行业的迅猛发展,碎片化的海量订单推动着仓储管理行业向自动化,智慧化发展。大型智慧仓储不仅要录入商
在女性患癌人群当中,乳腺癌是最常见的癌症,是威胁女性生命健康的重要因素之一。有研究表明,乳腺癌的早期发现可以有效提高患者的治愈率,并且患者的五年生存率也会大大提高。因此乳腺癌的早期筛查对于患者后续的治疗有着重要的意义。医学影像是乳腺癌早期筛查的重要手段,其中乳腺钼靶图像具有成像清晰、成本低以及灵敏度高的优点,是最常用的筛查手段。医生通常需要依靠大量的临床经验来做出诊断,但对于钙化病灶而言,由于其较
随着深度学习技术在计算机视觉方面的发展,常见的视觉识别任务,例如图像分类,目标检测和语义分割等迅速达到成熟。实例分割作为一种重要的图像理解方法,旨在找到图像中所有实例并且对实例进行像素级分类,兼具目标检测和语义分割的功能。尽管如此,实例分割仍然不足以对复杂的周围环境进行全面理解,例如当物体之间存在相互遮挡关系时,实例分割技术仅仅能够识别和分割可见像素部分,对于物体被遮挡部分无法做出预测。然而,人类
随着周围神经组织工程学的发展,可生物降解材料的研究具有广阔的应用前景。壳聚糖(Cs)由于其与糖胺聚糖相似的化学结构而成为神经组织工程的候选者,但由于缺乏弹性和柔韧性,经常需要与其他材料组合使用。许多天然材料也可以用于构建神经支架,例如透明质酸(HA),明胶(Gel)和胶原蛋白(Col)。通常,这些材料不适用于单独制备神经支架,因为它们很难成型,并且它们的水溶性决定了它们长时间不能在组织环境中保持单