基于循环神经网络的语义完整性分析

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:yin329060357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着科技信息的发展,自然语言处理逐渐成为计算机科学和人工智能交叉领域中的一个研究热点。其中语义完整性分析的主要工作就是判断一句话是否语义完整,它是长文本句法分析、语义分析、机器翻译等自然语言处理任务的前期工作。在主观题的自动评分中,特别是长文本答案的主观题评分,就需要将学生答案和标准答案进行分句处理,即分割成多个语义完整的句子,再进行句法、语义的相似度匹配。对中文进行语义完整性分析的原因在于汉语中标点的使用没有严格的语法限制,尤其逗号的使用较为随意,逗号既可用于语义完整片段的分隔,也可在语义不完整时起停顿作用。因此,利用最新的自然语言处理技术对中文句子进行语义完整性分析具有重要意义。本文提出了一种基于循环神经网络的语义完整性分析方法,通过判断句子是否语义完整,将长文本切分成多个语义完整句。本文的创新点主要有:(1)对于输入数据的处理,本文提出一种基于循环窗口的思想,将变长序列转换为循环神经网络可以接受的固定长度序列。同时利用循环窗口避免了在随机欠采样处理以后上下文特征信息丢失的情况。(2)对于标注后产生的分类不平衡问题采用改进的随机欠采样方法进行处理。对比实验表明:本文提出的改进随机欠采样方法,可以有效的解决分类不平衡问题,进而提高模型准确率。(3)提出一种基于双层Bi-LSTM的语义完整性分析模型。通过Bi-LSTM的特性,获取输入序列的上下文特征,同时通过堆叠Bi-LSTM,将前一层的输出重新抽象出新的特征给后一层学习。此外,采用Dropout策略防止模型过拟合。通过大量的参数对比实验,选取合适的神经网络参数,最终准确率可以达到91.61%。本文采用基于双层Bi-LSTM的循环神经网络模型,对长文本实现自动标注,从实验结果和项目使用来看,本方法可以较好的解决标注语义完整性的问题。后续将模型用到生产环境的过程中,可以结合标签之间的依赖关系,对模型输出结果,按照一定的词性规则进一步提升预测结果。
其他文献
“朱门酒肉臭,路有冻死骨”出自杜甫《自京赴奉先咏怀五百字》一诗,这两句诗历来都被视为封建统治阶级奴役劳动人民的典型写照,其中最显眼的字眼当然是一个“臭”字。朱门,当
目的白血病是造血干/祖细胞的恶性克隆增生性疾病,我国的发病率约为2.76/10万。葡萄糖6-磷酸脱氢酶(Glucose-6-phosphate dehydrogenase,G6PD))存在于所有组织和细胞中,目前
<正>党的十九大报告指出:"创新是引领发展的第一动力,是建设现代化经济体系的战略支撑。"并明确把创新驱动发展战略与其他六个战略一道确立为统筹推进"五位一体"总体布局的根
为了解深季节性冻土区粉砂土在反复冻融条件下的力学性能,对不同冻融次数、压实系数、含水量、围压下粉砂土的静力特性进行了试验研究.试验结果表明:经历多次冻融后,粉砂土的
对地方高校应用型音乐教育人才的内涵作了较为清晰的界定,并结合丽水学院艺术学院近几年来的教学改革实践,探索地方高校应用型音乐教育人才培养的新模式,以期办出地方高校音
<正>在PPP项目规范化发展的总体要求下,财金[2019]10号文(以下称"10号文")对财办金[2017]92号文(以下称"92号文")和以往文件内容做了进一步重申和补充。10号文和92号文对PPP
目的:探讨腹腔镜肝切除(LH)的安全性、可行性和微创性。方法:将2008年4月至2009年11月符合纳入标准的45例行肝切除病人随机分入腹腔镜肝切除(LH)组和开腹肝切除(OH)组。比较两
背景与目的食管癌是世界上最常见的六大恶性肿瘤之一,其死亡率居恶性肿瘤死亡率的前十位。广东省东部的汕头地区是我国食管癌发病率和死亡率非常高的地区。长期以来传统地认为
<正>1教学背景小学生在作文写作过程中,由于缺乏写作经验和写作技巧,常常是平铺直叙。所以在批改作文的时候,常常会发现这样的问题:学生习作题材经常如出一辙,没有任何新颖性