论文部分内容阅读
随着人工智能技术取得了长足发展,神经网络被广泛应用到自然语言处理任务中,并且取得了革命性的进步。文本分类是自然语言处理领域的一项重要基础性任务,随着互联网上信息的日益复杂多样,数据内容日益丰富,分类粒度越来越细,传统的单标签文本分类不能很好地达到人们的期望,因此,对于多标签文本分类的研究应运而生。多标签文本分类任务是自然语言处理领域的主要研究任务之一,为信息检索、推荐系统、对话系统等提供了极大的便利,具有极大的研究前景和应用价值。因此,本文对多标签文本分类问题展开研究。文本的特征提取、单词的向量表示和标签间的相关性问题是多标签文本分类领域的核心基础技术。本文围绕这些问题,对序列到序列模型seq2seq展开了研究改进,主要研究内容包括:一、针对无法有效地突出词级重点信息,文本的局部特征和全局特征使用不充分问题,构建联合模型来全面的提取文本特征。该模型的构建主要是利用多头注意力机制来区分每个单词对于文本识别的重要程度,从而获取关键词信息,胶囊网络提取文本的局部特征表示,BiLSTM网络提取文本的全局特征表示,并通过特征融合策略进行特征融合,从而获得更为全面、细致的文本特征。二、针对传统的词向量无法解决单词歧义性、不会根据上下文信息变化,并且无法既捕获多层次文本特征,又获取标签之间相关性等问题,在传统的seq2seq模型的基础上,分别改进文本的向量表示和编码器结构,构成改进的seq2seq模型,不仅能够获得丰富的语义表示,还能捕获标签之间的相关性。通过ELMo预训练语言模型和GloVe词向量构成文本的向量表示,以获得更丰富的语义信息;编码器为本文提出的联合模型,获取多层次的文本特征;利用解码器捕获类别标签间的相关性,使分类性能进一步提高。实验结果表明,本文模型在多标签文本分类任务中展现出了较好的性能,充分证明了本文模型的优越性。