论文部分内容阅读
短文本分类是自然语言处理领域中的一项基础研究任务。该任务旨在从预定义的类别标签中自动地为给定的短文本指派目标标签。然而,短文本往往缺乏足够的词共现以及上下文特征,导致传统的文本表示存在特征稀疏问题。目前,采用分布式词向量表征能够较好地缓解这一问题,但是现有的结合短文本语言特性来设计分类方法的研究仍然较少,且分类性能仍有一定的提升空间。因此,本文结合短文本的语言特性分析各方法在短文本分类上的适用性,并对在短文本分类上性能表现较佳的模型展开优化研究,具体内容如下,(1)短文本分类模型架构分析基于统计特征的传统分类方法和基于神经网络的分类方法在短文本分类任务上各有优势与不足,本文结合短文本的语言特性,对上述两类方法中具有代表性的分类方法展开分析,并根据各方法的具体实验结果展开讨论,从而选择适合短文本的分类方法,为后续的优化研究做铺垫。实验证明,基于卷积神经网络的分类方法更适合短文本分类任务。(2)基于卷积特征自适应的短文本分类方法短文本具有用词精炼、包含多角度信息的语言特性。角度信息是指具有领域特性并能够指导短文本主题分类的用词。由于每个角度信息对短文本表示的重要程度不同,若直接拼接各角度特征往往导致文本特征的区分度不强。因此,本文提出一种卷积特征自适应的短文本分类方法。这一方法对各个角度特征进行重要性评估,使网络自动调整各角度特征的权重,从而加大对重要角度特征的关注度,同时弱化无关角度信息的影响。实验证明,该方法有效地提高了短文本分类的性能。(3)基于语义单元相互依赖的短文本分类方法短文本内片段信息往往联系紧密,然而卷积神经网络在抽取文本最优特征时忽略了整体片段信息之间的联系,导致难以抽取全局最优特征的问题。因此,本文提出一种基于语义单元相互依赖的短文本分类方法。这一方法为短文本所包含的语义单元建立相互依赖关系,使网络能够充分理解文本的整体语义,进而抽取文本的全局最优特征。实验证明,全局最优特征的抽取有效地提高了短文本分类的性能。本文结合短文本的语言特性,分析各分类方法的适用性,并进一步结合短文本的语言特性从卷积特征的角度上采用注意力机制优化分类方法,一定程度上提高了短文本分类的性能。在NLPCC2017分类语料上,基于卷积特征自适应的短文本分类方法、基于语义单元相互依赖的短文本分类方法F1值分别比基准模型提升1.70%、1.97%。