论文部分内容阅读
移动通信经历了从1G到4G发展过程,目前5G正在蓬勃发展,互联网每时每刻都会产生包含文本、图片和影音等信息的海量数据,存储在云服务器、个人计算机或移动通信设备上。如何高效、快捷地获得有价值的信息是互联网用户最关心的问题,因此,对海量信息能进行智能自动分类处理、排除无价值或不健康信息的网络技术成为研究的热门领域。文本分类作为自然语言处理领域的研究热点之一,对优化网络环境、处理海量文本信息有重要意义。本文以提高文本分类准确率和缩短文本分类模型的训练时间为目标,主要研究内容如下:(1)本文首先对目前比较主流的分词工具进行性能测试,以分词结果的准确率和分词时间为判断依据,选用Jieba分词工具对文本进行分词。针对文档中的停用词种类繁多,且开源的停用词表各有千秋,本文重新整理了一套停用词表。为文本预处理奠定了良好的工作基础。(2)本文通过研究四种传统特征选择算法:词频(Document Frequency,DF)、卡方(?~2)检验(Chi-Square Test,CHI)、互信息(Mutual Information,MI)、信息增益(Information Grain,IG)。针对CHI特征选择算法的“低频词缺陷”,从词频和类离散度两个角度出发提出了改进方法,并在朴素贝叶斯分类器上进行实验。改进后的CHI-M特征提取算法分类平均准确率为87.49%,召回率为86.73%,较改进之前的平均分类准确率和召回率分别提升了4.88%和4.94%,验证了本文改进算法的有效性。(3)文本特征表示是文本分类任务中的重要环节。本文首先重点研究了基于概率模型的LDA主题向量模型和基于神经网络的word2vec词向量模型,并且对两个模型的重要参数进行训练,然后从语义表达和词义联合两个方面考虑,结合以上两种文本特征表示方法,设计了一种新的文本特征表示模型LDA-word。(4)为验证LDA-word文本特征表示模型的有效性,突破传统机器学习分类准确率提高的极限,本文通过深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)实现文本分类。同时为加快模型收敛速度,在卷积层使用了ReLU激活函数。其次,采用Dropout策略减弱卷积神经网络模型的过拟合现象。最后在输出层引入Sigmoid函数,来提高模型输出的稳定性。(5)本文通过深度学习框架TensorFlow中的tensorboard可视化工具来监督三种文本特征表示模型的训练过程,并分别使用LDA主题向量模型、word2vec词向量模型和LDA-word模型进行文本特征表示,然后输入CNN实现文本分类。实验结果表明,本文提出的LDA-word模型的分类结果在准确率、召回率上均有明显提升,并且通过该模型将训练语料库输入CNN之后的训练时间相较于LDA主题向量模型和word2vec词向量模型分别提高了0.71倍和1.56倍。