论文部分内容阅读
随着大数据、深度学习的快速发展,作为语言的两个基本属性,语音和文本的研究有了突破性进展。语言是教学场景中最主要的信息交流方式,因此文本和语音的研究对于教育+AI有着重要的意义。作为文本和语音研究中的一项基石工作,语言模型(Language Model,LM)主要应用于语音识别、拍照搜题、机器翻译、智能语音对话等教育+AI领域。目前,语言模型在训练语料相对充足的智能客服等垂直领域已经取得了比较理想的效果。然而,对于语言模型在教学场景中的研究和应用学术界着墨不多,主要有两个原因,一是数据壁垒,高质量的面向教学场景的语料积累太少;二是教学场景的数据有其自身的特点:首先教学场景的语言具有独特的话术性,如老师讲课常用的话术、中英文数字结合等;第二,教学场景的语言具有知识点名词专业性,如数学、物理、化学等学科的专有名词;第三,教学场景中老师、学生的语言通常具有口语化的特点;第四,教学场景具有领域综合性,老师讲课会涉及到其他领域的知识,其目的是把知识点更好地传达给学生。因此,专门针对教学场景训练一个高性能的语言模型势在必行。本论文主要针对教学场景的数据设计并实现了基于深度学习的教学场景语言模型,并完成了通用领域语言模型和本文提出的语言模型的自适应。论文工作主要包括以下几个方面:首先,我们在教学场景数据集上分别实现了统计N元组语言模型和标准RNN语言模型,并根据实验结果对两种语言模型进行了分析。其次,我们在教学场景数据集上设计并实现了以SCN-LSTM为文本特征提取器的语言模型。SCN层通过跳跃连接卷积的结构进行单词相对位置的特征学习,LSTM层对合并后的单词位置信息和词向量进行深层语义特征学习。我们将不同的文本特征提取器实现的语言模型方法在教学场景的数据测试集上进行横向实验比对。实验结果表明,与其他文本特征提取器实现的语言模型相比,使用SCN-LSTM训练的语言模型优势比较明显,该方法大幅度提升了教学场景下语言模型的性能。与传统的N元组语言模型和标准RNN语言模型相比,我们提出的语言模型困惑度相对降低了36.9%和33%。同LSTM语言模型、CNN语言模型、CNN-LSTM语言模型相比,困惑度分别相对降低了25.6%、26%和5.4%。此外我们在语言模型公开数据集PTB上也进行了对比实验并进行了结果分析。最后,为了使面向教学场景的语言模型具有较好的泛化性,我们进行了语言模型自适应研究。将通用领域的语言模型与本文设计的语言模型进行自适应后,语言模型的困惑度相比SCN-LSTM语言模型继续降低了8%,性能得到进一步提升。