基于深度学习的新闻文本分类方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:netcapo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量的迅速增加,其中文本形式的数据占很大比重。而文本分类作为最常见的文本挖掘技术,可以在大量杂乱的文本数据中发现有价值的信息具。在文本分类领域,一直将确保分类准确率的同时减少分类时间这一问题作为首要目标。因此,本文基于深度学习的卷积神经网络模型对新闻文本分类模型问题进行研究。主要研究工作如下:(1)针对新闻文本的稀疏性和上下文依赖性,提出一种针对新闻文本数据集的预处理和特征提取方法。该方法采用对新闻文本进行分词处理的方式,将所有文本由原来的文章形式改为词组形式,随后在数据集上使用停用词处理方法来减少噪声数据对分类模型的影响。同时采用word2vec工具对预处理后的文本进行词向量训练,实现词向量以多维数据的方式输入到Embedding嵌入层。模型在学习单词特征时,可以关联上下文单词的内容作为分类结果,使不同词频但相互之间有所联系的单词在分类任务起到一定的作用。(2)针对新闻文本分类泛化能力较弱的问题,本文根据深度学习卷积神经网络的文本分类算法,结合词向量训练方法改进了文本分类模型。模型通过控制模型参数实现了 Embedding在模型中三种不同的文本词向量形式。通过不同的文本词向量训练获得不同的分类模型,对比分析每个模型分类的效果差异,最终确定最优的算法模型。(3)针对新闻文本类别分布频率不均衡的问题,提出一种基于哈夫曼树思想的层次Softmax结构。通过类别统计建立层级结构Softmax取代之前扁平化结构计算的方法。提高了模型多分类的训练速度,降低了模型计算概率的时间复杂度。通过测试集在每个模型的分类效果对比,结果表明,使用Word2vec工具训练后的词向量输入Embedding嵌入层,并结合卷积神经网络算法以动态参数的形式继续参与模型训练,最终获得的分类模型,在新闻文本测试集上分类效果表现较好,准确率为93.87%,比传统所使用的模型提高了近3%。
其他文献
大数据时代,个人所拥有的数据量正在呈现爆炸式增长,个人所需要处理的数据种类也趋于庞杂。面对人们日益增长的需求,基于物理存储介质的个人本地存储存在着便携性差,存储容量
随着互联网的兴起,各种类型数据包括文本、音频和图像等以惊人的速度增加。而文本数据与音频和图像数据相比,它占用网络资源少,传输速率高,更易于被上传和下载。这使得网络资
树木图像的特征点提取和匹配为后续的树木三维模型构造和可视化提供最直接的数据基础。本文在分析研究了传统的Harris算法、SUSAN算法、SIFT算法等图像特征点提取技术的基础
由于我国经济持续高速发展,城市私家车保有量日益增加,这就对交通监测和指挥系统的性能提出了更高的要求。为了缓解交通压力,世界各国纷纷对智能交通系统(Intelligent Transp
随着科学技术的迅猛发展,计算机立体视觉正广泛应用于电子、医学、航空航天等领域当中。摄像机的双目视觉系统模仿人类的双眼,使计算机具有视觉认知功能从而利用图像获取信息
随着智能化的不断普及,人机交互方式也在不断发生变革。作为人机交互领域的研究热点,体感交互符合人类日常交流习惯,在虚拟现实、智能家居等诸多领域具备广阔的应用前景。目
短文本摘要任务涉及文本间语义相似性计算以及自然语言生成等方向的研究,是一类非常具有研究价值的问题。当前深度学习模型已经应用于自然语言处理领域的研究,但是对于短文本
数据库技术的飞速发展以及各行各业数据量的指数级增长引领着人们步入大数据时代。如何快速而有效的从大量的未处理的数据中获取到人们所需要的信息已经引起了人们的重视。高
信息化和网络化的不断发展,使营销渠道也发生了深刻的变化,从传统的线下实体店,到线上互联网渠道,再到移动互联网和智能终端快速发展催生的O2O模式,都在挑战渠道成员对于新环
改革开放以来,军工企业作为国家战略性的产业,肩负着振兴国防科技工业和为国民经济建设服务的双重任务,一直在不断地改革发展。军工企业是我国国有企业的重要组成部分,是通过政府公共部门管理的,属于公共管理的范畴。军工企业改革备受市场关注,也是国企改革的难点之一,尤其是在最近两年,公司制改制工作又进一步推动了我国军工企业改革的发展。在军工企业改革发展过程中,自二十世纪八十年代后期开始,随着市场经济的不断发展