论文部分内容阅读
面对互联网中大量冗杂的文本信息,自动文本分类技术可以实现对这些文本信息的自动分类、辨别,在垃圾邮件处理,信息过滤,搜索引擎,语义消歧等多个领域都有着重要的应用。自动分类技术可以实现对互联网上冗杂的信息进行分类处理,从而帮助人们快速找到人们所需要的信息。早期的文本分类方法通常需要大量的有标注的训练数据集,以有监督的方式训练文本分类器。但是获取有标注的文本数据集需要大量的人力,并且往往利用有标注数据集训练的分类器泛化性能较差。而互联网上存在着大量的无标注数据,简单易得,人们开始研究利用半监督学习来进行文本分类的方法。半监督文本分类技术同时利用有标记数据和无标记语料来训练分类器。通过不同的半监督学习方式同时利用有标签数据和无标签数据中的有用信息,从而提高分类器的性能和泛化能力。本文的研究工作主要分为以下几个方面:(1)对经典文本分类方法进行了介绍和分析,详细对比了经典文本分类方法的优劣。并基于经典文本分类方法进行了相关实验。(2)基于深度学习的方法,构建基于LSTM的文本分类器,并向其中引入对抗训练的思想。通过向输入LSTM的词嵌入加入对抗扰动的方法,使得词嵌入的语义表达更加充分,原本语法结构相似但语义不同的词得以区分开。通过残差网络架构,进一步提高词嵌入的语义表达能力。将构建的分类器用于半监督任务上进行测试。(3)为了进一步提取文档表示中的类别信息,提高分类性能,向分类器中引入了自注意力机制。自注意力机制可以简单高效的学习到句子的内部结构,从而提取到文本中不同方面的信息,可以用在文本分类任务上,本文分别引用了单维自注意力和多维自注意力,并进行了相关实验。实验结果表明,引入自注意力机制的分类模型文档的表征更加充分,分类性能更好。与基准模型相比,准确率提高了三个百分点;在相同的词嵌入预训练策略下,本文提出的模型准确率达到0.933,也取得了更好的分类效果。(4)分别使用RNNLM和自编码器语言模型对词向量进行预训练,探究不同预训练策略对分类模型性能的影响;通过改变有标注数据比例探究不同数量有标记数据对分类模型性能的影响,实验表明,本文的提出分类模型在有标注数据量更小的时候相比基线模型可以取得更好的分类效果。在有标注数据减少到20%时,本文提出的分类模型相比基线模型的分类效果提高了5个百分点左右。