基于卷积神经网络的特征选择和特征表示文本分类研究

来源 :广西师范大学 | 被引量 : 6次 | 上传用户:xiaoyao984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动通信经历了从1G到4G发展过程,目前5G正在蓬勃发展,互联网每时每刻都会产生包含文本、图片和影音等信息的海量数据,存储在云服务器、个人计算机或移动通信设备上。如何高效、快捷地获得有价值的信息是互联网用户最关心的问题,因此,对海量信息能进行智能自动分类处理、排除无价值或不健康信息的网络技术成为研究的热门领域。文本分类作为自然语言处理领域的研究热点之一,对优化网络环境、处理海量文本信息有重要意义。本文以提高文本分类准确率和缩短文本分类模型的训练时间为目标,主要研究内容如下:(1)本文首先对目前比较主流的分词工具进行性能测试,以分词结果的准确率和分词时间为判断依据,选用Jieba分词工具对文本进行分词。针对文档中的停用词种类繁多,且开源的停用词表各有千秋,本文重新整理了一套停用词表。为文本预处理奠定了良好的工作基础。(2)本文通过研究四种传统特征选择算法:词频(Document Frequency,DF)、卡方(?~2)检验(Chi-Square Test,CHI)、互信息(Mutual Information,MI)、信息增益(Information Grain,IG)。针对CHI特征选择算法的“低频词缺陷”,从词频和类离散度两个角度出发提出了改进方法,并在朴素贝叶斯分类器上进行实验。改进后的CHI-M特征提取算法分类平均准确率为87.49%,召回率为86.73%,较改进之前的平均分类准确率和召回率分别提升了4.88%和4.94%,验证了本文改进算法的有效性。(3)文本特征表示是文本分类任务中的重要环节。本文首先重点研究了基于概率模型的LDA主题向量模型和基于神经网络的word2vec词向量模型,并且对两个模型的重要参数进行训练,然后从语义表达和词义联合两个方面考虑,结合以上两种文本特征表示方法,设计了一种新的文本特征表示模型LDA-word。(4)为验证LDA-word文本特征表示模型的有效性,突破传统机器学习分类准确率提高的极限,本文通过深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)实现文本分类。同时为加快模型收敛速度,在卷积层使用了ReLU激活函数。其次,采用Dropout策略减弱卷积神经网络模型的过拟合现象。最后在输出层引入Sigmoid函数,来提高模型输出的稳定性。(5)本文通过深度学习框架TensorFlow中的tensorboard可视化工具来监督三种文本特征表示模型的训练过程,并分别使用LDA主题向量模型、word2vec词向量模型和LDA-word模型进行文本特征表示,然后输入CNN实现文本分类。实验结果表明,本文提出的LDA-word模型的分类结果在准确率、召回率上均有明显提升,并且通过该模型将训练语料库输入CNN之后的训练时间相较于LDA主题向量模型和word2vec词向量模型分别提高了0.71倍和1.56倍。
其他文献
随着我国汇率改革的不断推进,汇率波动弹性不断增强,外汇市场风险管理工具的重要性日益凸显,2011年我国正式推出了人民币外汇期权交易。人民币外汇期权是规避汇率风险的重要手段,对人民币外汇期权的定价也成为了研究重点。本文选择人民币兑美元外汇期权作为定价研究的对象。笔者首先介绍了偏微分方程法和鞅定价方法两种主要的期权定价理论,然后详细分析了跳跃扩散模型。笔者认为在人民币汇率弹性不断增强的情况下,人民币对
与传统酸性球团相比,镁质球团冶金性能优良。为此,梅钢在4 070 m~3大高炉进行了镁质球团应用实践,结果表明,高炉采用镁质球团后,高炉风量(BV)、理论产量和焦比均有所提高,煤
分析了蓝牙微微网间不同跳频区段工作原理,以及不同区段跳频碰撞数对实际吞吐量的影响,提出了不同微微网间跳频区段重叠数的推算方法及网络吞吐量计算公式。仿真结果表明微微
文本分类是自然语言处理领域的一项重要任务,具有广泛的应用场景,比如知识问答、文本主题分类、文本情感分析等.解决文本分类任务的方法有很多,如支持向量机(Support Vector
由于土地利用分类系统不能完全体现中观与微观区域中土地利用的社会经济属性及地域差异性,造成土地利用率的评价功能失真,因此通过比较几种有影响的土地分类思想,提出将土地
目的:探讨EZH2基因对卵巢癌细胞增殖和转移能力的影响,及其在卵巢癌组织中的表达与临床病理学意义。方法:运用EZH2小干扰RNA(siRNA)转染卵巢癌OVCAR-3细胞株,Western blot方
虽然日本神户制钢公司加古川炼铁厂将高炉原料筛下物作为烧结原料进行了再利用,但由此不得不增加烧结车间因筛下物的再利用而导致可变成本(如原材料成本和动力成本)的增加。因此
报纸
分别从数据来源、问答范围、会话管理方式等三个方面介绍了自动问答的发展现状,并着重阐述了基于深度学习的自动问答的研究进展,分析并总结了自动问答领域近年的研究成果,指
运用分形维数和GIS空间分析工具,采用测算重庆都市圈旅游景区空间结构的集聚维数、网格维数和关联维数的方法,对其自组织演化空间特征进行研究。研究表明重庆都市圈旅游景区
随着环保理念的不断深入,绿色发展已经渗透到各行各业,金融行业也不例外。商业金融作为我国金融行业发展体系的重要组成部分,最近几年也在不断开拓相应的绿色金融业务。绿色