基于细颗粒度情感分析的作文评分以及评语自动生成系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bo0316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
写作可以培养学生的沟通和思考的能力,而对于作文的人工评分与评语却存在效率低,成本高且主观性强的特点。随着自然语言处理技术的快速发展,对中文作文处理的相关技术越来越受到研究人员的关注,但是,目前已有的作文批改系统存在一下几个问题:1)分析方法过于浅层;2)特征提取不够全面;3)评分可解释性差。针对以上问题,本文对作文自动评分以及评语生成技术进行了探索。本课题的研究意义一是对作文评分进行了多维度划分并使用传统方法与深度学习相结合的方式对不同维度进行分析,二是对作文进行了不同方面的评语生成,提高了作文批改系统整体的可解释性,减少了作文分析的人力成本。本文的主要研究内容如下:(1)将作文基础等级划分为流畅度,集聚度和丰富度三个维度;搭建bigram语言模型并利用困惑度指标对流畅度进行评分;尝试使用word2vec和wordnet词汇相似度计算方法与不同的词汇链构建算法进行词汇链生成,并通过单篇作文的词汇链个数和最长词汇链长度特征对集聚度和丰富度进行评分。(2)利用预训练语言模型BERT对作文发展等级中的文采进行评分;提出了对评语语料进行情感分析的方式对数据集进行是否具有文采的标注;实现了逻辑回归以及SVR作为基线模型并与BERT进行了对比,证明了预训练语言模型在复杂问题处理上的优势。(3)受到细粒度情感分析的启发,对人工评语语料进行了依存句法分析和规则处理后提取出来具有使用意义的情感词对;使用Boson NLP情感词典以及人工分类的方式对评论词对进行了划分并构建了评论情感词库。(4)搭建了基于Seq2Seq的作文评语生成模型;使用评论情感词典构造了评论伪句作为模型输出并加入了否定词以及程度副词加强评语真实性;在Seq2Seq模型中加入了Attention机制增强了模型的性能;在隐变量中拼接了分数额外信息加强了模型对分数的敏感度;与基线模型进行对比证明了长期以来问题的解决以及双向语言模型等处理方式的有效性。
其他文献
目前新药研发需求日益增加,业界迫切需要一种智能发现潜在药物,代替人工实验的药物发现方式。利用人工智能相关技术辅助分子设计是药物研发领域的热点之一,如何利用人工智能结合计算机强大的算力辅助人类专家进行新兴药物分子的结构设计和属性分析成为当前药物研发领域的重要课题。近年来,一些深度生成模型被提出,使得利用深度学习方法自动发现和生成所需药物分子成为可能。这对推进药物开发进程,缩短药物研发周期,降低研发成
学位
随着互联网基础设施日益完善,网络平台特别是社交媒体平台已经逐渐成为人们针对热点事件发表观点、表达情绪的重要渠道,针对社交媒体文本的情绪分类研究也受到了越来越多的关注。现有工作大多忽视了社交媒体特有的情感信号,限制了准确性的进一步提升。本课题基于微博数据展开研究,将其中的事件信息和用户信息引入情绪分类模型。对于事件信息中的情感信号,本课题基于词汇被用于讨论不同事件时可能会表现出不同情感色彩的现象,提
学位
目标检测和语义分割作为计算机视觉领域内的研究热点,具有重要的研究价值和广泛的应用前景。现有的语义分割或目标检测任务的单任务模型的性能在工业界已有一定应用价值,但仍然存在数据量不足、训练周期长、过拟合以及学习效率低等弊端。而多任务学习能够通过隐式数据增强,以及多任务间的相互作用提升模型的泛化能力,减轻过拟合并降低模型陷入局部最优的风险。本文利用多任务学习的思想,将目标检测和语义分割两个任务进行联合学
学位
互联网改变了人们的关系模式,使得传统的亲缘关系与地域范围不再成为限制人们交往的必要因素,人们依据个性化的趣缘在网络上相识并大量汇聚。同时数字技术的发展带来了全新的用户交互模式,用户的交互行为可以打破时空的界限,互动不用被“亲身在场”的条件所限制,网络环境的匿名性使得人们在趣缘群体中可以无所顾忌地进行自我呈现和观点争辩,成员在趣缘群体中的互动行为成为一种现代新型社交的映射,也成为未来人类社交的大势所
学位
传染病未曾远离过人类社会的发展史,防疫是人类永恒的议题。疫情出现惯常性地引发社会信任危机,因此,关于防疫的研究是新闻传播学领域不能忽视的问题。在新冠病毒仍危害全球人类的当下,连接个体与社会的媒介具有重建交往信任、凝聚防疫共同体、建构现代防疫观的使命。“现代防疫观”是指现代化进程中与社会发展状况相适应的防疫观念,它的内涵在不同国家和社会发展的不同时期会发生变化。本文主要研究的是中国社会的现代防疫观。
学位
深度强化学习目前已经成为学术界的热门方向之一,其一度被视为最容易实现通用人工智能的方法。但是想要正确应用深度强化学习依旧存在许多现实问题,一方面,智能体存在隐藏状态的问题在实际应用中不可避免,另一方面,如何保证信息的有效利用是强化学习长期讨论的困难,而本课题则主要基于上述两方面固有缺陷进行一定探索与研究。首先,为了优化agent在POMDP任务下的表现,本文基于主流PPO2算法尝试加入LSTM网络
学位
视觉图像随着影像技术及影视产业的日益繁荣,显性视觉层面信息体量越来越大,视觉符号传播的重要性显而易见。中国广告长城奖作为中国广告业界较具分量的赛事之一,其获奖作品自然因此受到了极大的关注,并为业界奉为风向标。但是关于中国广告长城奖相关研究普遍较少,关于影视广告的发展现状也基本处于研究空白,呈现出部分研究脱节的现象。同时,短视频产业发展迅猛,对传统平台中的影视广告具有一定的冲击力,因此,对于影视广告
学位
在2022年的今天,探月工程不曾停止,中国正处于“载人登月”的技术攻关阶段,在该阶段,需要对载人登月的各项问题进行关键技术攻关。为验证载人登月阶段的多种方法的正确性,我国需要在地面完成各算法的测试。本系统是精准定点月面着陆GNC系统的子项目,精准定点月面着陆GNC系统是实现月球导航、避障、定点着陆等任务的系统,该系统依赖于探测器飞行过程中拍摄的观测图像。但由于实际拍摄月球图像较为困难,因此需要通过
学位
传统的视觉SLAM算法大多基于场景是静态的假设,而实际生产生活中的场景大多是动态的。在动态场景下,利用环境中的特征点匹配会造成误匹配,并且在运行过程中会产生累积漂移,相机位姿估计的精度,进而影响系统的定位精度和地图构建的稳定性。另外,传统的SLAM算法构建的地图往往是稀疏的点云地图,只能用于定位,而不能用于执行更高级的人机交互任务。针对目前SLAM算法在动态环境下存在的问题,本文提出了动态环境的轻
学位
2017年财新传媒首开国内新闻财经类媒体全面付费的先河,推出了财新通、数据通、英文通、周刊通等一系列付费产品,这一举动不仅帮助财新传媒营收稳步增长,在同类市场中保持了领先地位,也为财经类媒体的数字化商业模式的转型升级提供了经验。本文针对财新APP这一较为典型的新闻付费应用进行了用户体验影响因素的分析,并尝试建立影响财新APP付费用户体验的模型,为更多的媒介平台用户体验研究提出新的思路和理论参考,同
学位