论文部分内容阅读
文本分类(Text Classification)是文本挖掘和自然语言处理中的一个重要的研究领域,旨在将文本归到预先定义的一个或多个类别中,许多不同的应用最终都可以转化为分类问题。传统的文本分类方法主要关注两个问题:特征表示和分类器选择。传统的文本特征表示方法通常基于词袋子模型(bag-of-word),该模型会出现数据稀疏、词序丢失等问题。传统的分类器往往也存在通用性差,调参困难等问题。近年来,基于神经网络的深度学习技术为文本分类带来了新的思路,本文在文本分类方法的国内外研究现状的基础上,提出了一个基于多词向量集成和神经网络的文本分类方法,本文的主要工作如下:第一,基于神经网络的文本分类相关技术理论研究。本文介绍了文本分类相关研究现状,重点介绍了基于神经网络的文本分类相关技术,并详细阐述了其理论基础。本文对比了传统文本分类和神经网络文本分类之间的差别,然后总结了用于文本分类的相关神经网络结构,最后介绍了各种词向量表示技术。第二、提出一种新的基于多词向量集成的神经网络文本分类模型。该模型可以集成多种词向量,并利用它们所包含的丰富词义信息来生成高质量的文本表示,最终促进文本分类的准确率。模型包含输入、文本表示向量生成、文本表示向量修正和分类四个模块。模型使用多种词向量初始化输入层,不再依赖传统的文本特征表示方法,避免了数据稀疏问题。同时,通过特定的网络结构(如卷积),模型还能有效地建模文本的词序和上下文信息。为了更合理地集成各种词向量,模型通过自适应修正策略来修正各词向量生成的文本表示向量,确保最终生成的文本表示能准确表达原文本的意思,提高分类的准确率。多个中英文分类数据集上的实验结果表明,该模型能取得良好的分类效果,优于多个基准模型。第三、文本表示向量自适应修正策略的设计与实现。由于训练模型和语料的不同,不同版本的词向量能够建模词不同方面的语义信息,这使得不同词向量对某一特定分类任务的贡献是不同的。因此,有必要对各词向量加以区分,调整它们对最终文本表示的影响。本文提出了基于Highway网络和基于注意力的两种文本表示向量修正策略。修正策略使模型具备了区分能力,重要词向量将会更多的影响最终的文本表示,而不重要的词向量的影响力将被弱化,从而避免其对分类产生负面影响。实验结果表明,两种修正策略都能有效的提高模型的分类准确率。