论文部分内容阅读
在互联网时代,信息的爆炸性增长,促使人们越来越重视海量文本数据的潜在价值。利用或改良现有的人工智能技术,进而从海量文本数据中挖掘潜藏的信息,是当前自然语言处理领域的研究重点和难点。文本分类研究涉及自然文本内容理解和模式分类等若干问题,训练性能卓越的文本表示方法是实现文本分类任务的前提。从独热编码到分布式表示,再到神经网络预训练语言模型,文本表示方法获得了长足的发展,为大量实际自然语言处理任务奠定了坚实的基础。但是,以循环神经网络RNN(Recurrent Neural Network)为核心的文本表示模型通常是一种有偏模型,其捕获的语义信息不平衡,并且不能并行计算;以卷积神经网络CNN(Convolution Neural Network)为核心的文本表示模型虽可并行计算,但却不能捕获单词间的长距离依赖关系;近期热门的神经网络预训练语言模型不仅考虑文章整体上下文环境,而且可以解决当前文本表示模型特征抽取能力不强、无法学习大量无监督数据中包含的语言学知识等问题,如Google提出的BERT模型。但预训练语言模型同样存在参数量太大,预训练耗时较长等问题。因此,为了更好的完成文本分类任务,本文立足于当前存在的问题,开展了相关文本表示模型的研究,并在此基础上建立文本分类模型。本文的工作主要有以下三个方面:(1)针对传统文本表示与分类模型文本特征提取不充分、缺乏类别信息等问题,本文提出一种基于融合特征和多通道CNN的文本表示与分类模型LTCW_CNN。首先,本文提出了类别概率方差CTF-IDF算法,引入文本的类别概率信息,丰富文本的特征表示,弥补了传统TF-IDF算法无法提取类别信息的问题。其次,本文进一步提出一种具有类别和词频信息的词嵌入模型CT_Word2vec,模型利用CTF-IDF算法计算单词权重,对Word2vec向量化后的词向量进行加权。然后,本文集成CT_Word2vec,TF-IDF_VSM和LSI等单文本表示模型构建出新的文本表示模型LTCW。最后,将LTCW模型提取的文本向量表示通过多通道CNN充分提取文本特征并进行分类预测,在复旦新闻文本和网易新闻两个数据集上进行实验分析。实验结果表明,LTCW_CNN模型比基线模型性能更优,F1值分别达到了97.01%和96.28%。(2)针对BERT模型预训练方法不能充分考虑词间和句间信息等问题,本文提出了一种基于连续遮蔽词和上下句预测任务的PreBERT模型。首先,本文提出了基于CoMASK方法的连续遮蔽语言模型(CMLM)。CMLM以一定比例遮蔽随机挑选的字及其相邻字,改进了BERT只能随机遮蔽单个字而忽略字间连续性和依赖性信息的问题,可以更充分的学习字和词的语义信息。其次,本文改进BERT的单向下一句预测任务为上下句预测任务(ANSP)。ANSP考虑句子的上下文信息,能够更加充分地提取句子对之间的相关信息。PreBERT通过集成改进的CMLM和ANSP预训练任务,在单句子分类和句子对分类任务上都取得了更优的效果。在复旦新闻文本数据集、网易新闻数据集、BQ数据集和LCQMC数据集上同比BERT基础模型准确率分别提高了0.22%、0.16%、2.17%和1.27%。(3)针对BERT等预训练语言模型缺少元素对间时序和依赖关系、模型参数量大、结构调整困难、预训练耗时较长等问题,本文受多头自注意力机制启发,提出一种基于相对位置嵌入和多层多头自注意力机制的文本表示与分类模型PMSAN。PMSAN的多层多头模型结构可以多尺度获取句子内部的语义信息,相对位置嵌入可以在计算多头注意力参数矩阵时加入特征词对的信息。与传统位置嵌入方法相比,该方法引入了时序信息,同时相比传统预训练语言模型拥有更少的参数。实验结果表明,PMSAN在十个中英文权威数据集上以较小的代价取得了更好的效果。在八个英文数据集上分别取得了49.1%、84.1%、84.0%、61.9%、69.5、72.5%、93.2%和98.2%的准确率,在两个中文数据集上分别取得了98.4%和97.3%的准确率。实验结果证明PMSAN模型的语义解释性更强,效率更高。