论文部分内容阅读
随着大数据技术的发展,文本分析所面临的数据量正在迅速的增长,对这些数据进行处理,并且从中获取重要的信息以便于管理者进行分析和决策对于社会发展有着重要意义,因此,自然语言处理这一研究领域正受到越来越多的关注。目前,文本分类正在由以统计和机器学习为基础的传统方法向基于复杂神经网络结构的深度学习方法逐渐过渡。然而,传统的深度学习框架在文本处理方面的应用还有着种种问题和提高的空间,本文研究了多种深度学习模型地原理以及在自然语言处理方面的应用,并且提出了使用改进的循环神经网络结合改进的卷积神经网络进行文本分类的方法。具体研究内容及结果如下:1、对国内外自然语言处理的技术进行了文献研究和介绍,对文本分类的基本流程和概念进行了详细介绍,包括分词方法、词向量生成算法、常用深度学习模型原理等。2、对于词向量生成方法,研究并修改了英文环境中最新的词向量化方法ELMo模型,并且将其应用到中文文本分类任务中,与传统的word2vec方法进行了实证效果的比较。3、对于中文文本分类模型,本文基于卷积神经网络和循环神经网络提出了一个新的深度学习模型,通过将GRU和GCNN模型结合,用循环网络和卷积网络对文本信息进行特征提取,并且通过GRU结构缩短原本LSTM结构的训练时间,并且在搜狗新闻数据上的分类准确率达到了95.83%,相比其他对比模型达到了准确率的提升的目的,证明了该方法的合理性。