论文部分内容阅读
语义相似度是自然语言处理任务的核心模块,它对很多问题,例如网页检索、自动评分、自动问答、语言生成等方向都有非常重要的作用。计算机技术发展速度如此惊人,自动评分自然而然地进入人们视野,对于客观题的自动批阅已经日趋成熟,可面对变数比较大的主观题,采用传统的语义相似度计算方法经常会忽略答案中的重点,错失得分点导致评分的不准确。针对这个问题,我们提出了语义完整性分析下的Transformer-DSSM模型进行语义相似度的计算,进而提升主观题自动评分的准确度。一般而言,具有完整意义的短句在判断两句话表达意思是否一致时准确度更高,故而本文在进行语义相似度研究之前,将答案的长文本通过语义完整性分析(Semantic Integrity Analysis)方法转换为多个语义完整的中文短文本,并把其作为数据集用于语义相似度的计算。语义相似度的计算过程一般要有分词、词向量表示、提取特征、相似度计算四个步骤。在词向量表示过程中,本文引入了位置编码(Position Embedding),采用GRU网络对序列中的词语出现的位置进行编码,这样可以更好的获取词语的上下文特征。然后将特征向量和位置编码一同输入到基于Transformer编码层的网络中进行特征提取,依次经过自注意力层和前馈神经网络组成的编码层,为防止过拟合整个网络使用残差网络和归一化进行调整。在提取到词的特征后,引入全局注意力(Global-Attention)的概念,算出语句的特征向量表示。在得到两个句子的特征向量表示后,引入Attention-over-Attention(AOA)层提取两个句子的交互信息,最后根据综合的特征向量计算两个语句的余弦相似度。针对政治题目的主观题自动评分,相较于基于词移距离的方法、连续词袋模型、DSSM、CDSSM和LSTM-DSSM等,本模型在准确率上有所提升。实验结果表明,本文提出的语义完整性分析下的Transformer-DSSM在语义相似度计算方面,比传统方法的准确率更高。