论文部分内容阅读
文本分类是自然语言处理领域的一个重要研究课题,其主要任务是将输入文本自动归类。随着互联网技术的快速发展,如今全世界每时每刻都有数以亿计的文本信息在互联网中产生,其中主要以一般不超过160个字符的社交媒体博文、论坛回帖、网络问答和商品评论等短文本为主。如何高效准确的对海量短文本信息自动化分类已成为当前一个非常具有挑战性的任务,受到了研究人员的广泛关注。近些年来,基于深度学习(尤其是卷积神经网络)的短文本分类关键技术研究取得了长足的进展和爆发式的突破,但以下问题仍然存在:(1)传统文本特征表示方法受数据集大小及文本长度影响较大,容易造成维度爆炸、特征冗余或特征稀疏等问题,现有的单语义词向量方法没有考虑词的多义性,多语义词向量方法在计算时没能有效利用语境中词序、句法结构、词间距等信息对词的语义表达的影响;(2)短文本的长度普遍较短、提供的语义信息有限,因而现有的卷积神经网络模型对短文本抽象特征的抽取不充分,如何对卷积神经网络的结构进行改进,使其更适合处理短文本数据仍是一个亟待解决的问题;(3)整流线性单元(Rectified Linear Unit,ReLU)具有容易发生偏移(bias shift)问题和神经元容易死亡问题。当前针对激活函数的优化和改进大多放弃了稀疏激活的特性,但在不同深度和结构的卷积神经网络上的表现不稳定;其他针对网络结构和正则化方法的优化和改进往往会增加网络的参数量和计算复杂度,使模型难以训练。因此本文针对以上存在的问题,对基于卷积神经网络的短文本分类的多项关键技术展开深入研究与探索,主要工作成果如下:1.提出一种基于门控卷积与层次注意力机制的多语义词向量计算方法。首先提出了一种由单语义词向量与子语义偏移向量构成多语义词向量的方法,然后提出一种层次注意力门控卷积神经网络模型,基于该模型可进行多语义词向量的计算和学习。该模型综合考虑了词的多义性、词序、句法结构、词间距等语境信息对词义表达的影响,基于多个非残差块封装的门控卷积层构建了由子语义注意力层和合成语义注意力层构成的层次化注意力机制。实验结果表明,基于该方法计算得到的多语义词向量相较于基线方法表现有所改善,并且层次注意力门控卷积神经网络模型在语言建模任务上也优于其他预测目标单词的方法。2.提出一种基于注意力门控卷积神经网络的短文本分类方法。针对由于短文本长度有限导致当前卷积神经网络中的池化层难以下采样到真正重要的特征的问题,该方法基于分布式假说和通过引入一种注意力门控层模拟人类的注意力机制来控制目标单词或片段对应的抽象特征的重要程度,帮助模型找到真正重要的抽象特征。实验结果表明,注意力门控卷积神经网络的注意力机制是有效的,该方法相比于基于标准卷积神经网络的短文本分类准确度有所提升,并且在多个任务中产生与其他强基线模型相比富有竞争力的结果。3.提出一种基于参数自然对数转换的整流激活函数。该方法在保留激活函数稀疏激活特性的同时,引入参数自然对数转换对ReLU激活函数输入大于0的部分进行改进。该激活函数可以在不同的网络上微调、将每个隐藏层的激活均值推至接近零均值并减少方差、缩小大多数梯度并使梯度难以进入饱和状态,因而具有降低层间数据分布的偏移效应和异方差异性、一定程度上缓解神经元容易死亡问题和梯度消失问题等优点。实验结果表明,该方法可以提高卷积神经网络的收敛性能、加速学习进程并改善基于标准卷积神经网络和注意力门控卷积神经网络在短文本分类任务上的分类准确率。4.提出一种名为N折叠加的改善卷积神经网络的优化方法。该方法通过特征图共享和全连接层权重共享,在没有显著增加网络参数的情况下,可以降低特征图噪声和改善卷积神经网络收敛性能。本文通过费马引理及多元函数的极值判定等定理证明了N折叠加方法通过构建更多损失函数的全局极小值点,使模型更容易收敛并提高网络性能。实验结果表明,该方法可以降低特征图噪声、加快神经网络收敛速度、改善基于标准卷积神经网络在短文本分类任务上的分类准确率。