论文部分内容阅读
近年来随着科技信息的发展,自然语言处理逐渐成为计算机科学和人工智能交叉领域中的一个研究热点。其中语义完整性分析的主要工作就是判断一句话是否语义完整,它是长文本句法分析、语义分析、机器翻译等自然语言处理任务的前期工作。在主观题的自动评分中,特别是长文本答案的主观题评分,就需要将学生答案和标准答案进行分句处理,即分割成多个语义完整的句子,再进行句法、语义的相似度匹配。对中文进行语义完整性分析的原因在于汉语中标点的使用没有严格的语法限制,尤其逗号的使用较为随意,逗号既可用于语义完整片段的分隔,也可在语义不完整时起停顿作用。因此,利用最新的自然语言处理技术对中文句子进行语义完整性分析具有重要意义。本文提出了一种基于循环神经网络的语义完整性分析方法,通过判断句子是否语义完整,将长文本切分成多个语义完整句。本文的创新点主要有:(1)对于输入数据的处理,本文提出一种基于循环窗口的思想,将变长序列转换为循环神经网络可以接受的固定长度序列。同时利用循环窗口避免了在随机欠采样处理以后上下文特征信息丢失的情况。(2)对于标注后产生的分类不平衡问题采用改进的随机欠采样方法进行处理。对比实验表明:本文提出的改进随机欠采样方法,可以有效的解决分类不平衡问题,进而提高模型准确率。(3)提出一种基于双层Bi-LSTM的语义完整性分析模型。通过Bi-LSTM的特性,获取输入序列的上下文特征,同时通过堆叠Bi-LSTM,将前一层的输出重新抽象出新的特征给后一层学习。此外,采用Dropout策略防止模型过拟合。通过大量的参数对比实验,选取合适的神经网络参数,最终准确率可以达到91.61%。本文采用基于双层Bi-LSTM的循环神经网络模型,对长文本实现自动标注,从实验结果和项目使用来看,本方法可以较好的解决标注语义完整性的问题。后续将模型用到生产环境的过程中,可以结合标签之间的依赖关系,对模型输出结果,按照一定的词性规则进一步提升预测结果。