基于深度学习的中文新闻文本分类的研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:zyr2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在二十一世纪的大数据时代里,信息呈爆炸式增长,文本作为信息的一种重要承载方式,如何在海量的数据信息里对文本进行自动分类以便存储、管理以及检索,成为了一项值得研究的课题。早期的文本分类主要基于知识工程,人为地去定义并提炼出分类的规则,然后按照分类规则以人工的方式来构建分类器,这种方法费时费力。随着机器学习的兴起,为了克服这种困难,机器学习分类技术开始取代早期的分类方法。然而,传统的机器学习方法仍需要花费大量的时间去构建特征工程。深度学习作为机器学习的一个分支,近年来随着高性能计算的发展引起了广泛的影响,而如何利用深度学习去完成包括自动文本分类问题在内的自然语言处理领域的任务,也成为了一个研究热点。本文的主要工作是将深度学习模型应用在中文文本分类问题上。首先,在文本表示方面,针对传统的文本表示方法往往没有考虑词与词之间的位置关系,忽略了上下文之间的联系,且维度比较稀疏,结果造成语义信息缺失的问题,采用一种基于分布假说的神经网络分布式表示方法——词嵌入(Word Embedding)。本文通过神经网络语言模型中负采样的方式,预训练大量的中文新闻文本语料,无监督地学习得到中文词向量表示。实验结果表明,以词嵌入的表示方法作为文本特征,模型分类测试指标的F1值均取得了较好的结果。其次,在分类器构造方面,针对传统的机器学习方法需要花费时间和精力手动构建特征工程的问题,本文设计了两个常见的能够自动提取特征的深度学习模型——卷积神经网络(Convolution Neural Network,CNN)和长短时记忆神经网络(Long Short-Term Memory Network,LSTM),并将这两种模型应用于中文新闻文本分类的实验中。实验结果表明,相比于传统的k近邻、朴素贝叶斯以及支持向量机的机器学习文本分类模型,基于CNN和LSTM模型进行文本分类实验,分类测试指标的F1值结果均好于传统的机器学习模型。最后,在提升模型分类性能方面,针对自然语言处理的编码-解码模型中,编码和解码之间仅通过一个固定的语义编码联系起来,而造成部分信息流失的这个问题,引入了注意力(Attention)机制。本文对经典的CNN和LSTM文本分类模型进行了改进,设计了两种基于Attention的文本分类模型——CNN-Attention和LSTM-Attention。实验结果表明,相比于经典的CNN和LSTM模型,引入Attention后的两种模型,分类测试指标的F1值均有一定程度的提升。
其他文献
本文以南阳汉画的画现和画像石墓的位置环境为出发点,讨论了汉代人们围绕着墓葬形式而显示出来的生存意识和生死观念。讨论了推生事死,以现实生活为依据的对死后生活的安排;
期刊
一个操作系统的角度来看,Linux已经非常实用了。但Linux最主要的问题,却始终是应用程序的缺乏和驱动程度的支持。
城市轨道交通自动售检票车站管理系统在轨道交通运营中直接面向乘客,并在线路自动售检票系统中承担着承上启下的关键作用。从车站管理系统的功能需求出发,结合自动售检票系统具有分层系统的结构特征,对车站管理系统的构架模式和参考模型进行研究和设计,提出关于XML规范接口协议简约与重构的技术思路,描述异构平台数据收发的处理流程,并给出基于WPF技术编程实现设备运营监控界面示例。
乡村振兴战略着重于改善我国的乡村发展不平衡不充分问题,而在乡村工作中,如何保障农业生产水平的稳定至关重要,而这部分的重要载体就是以种植业为主导的乡村空间。本文将研
高层建筑和地下空间的大量开发,使得基坑面积越来越大,深度越来越深,基坑结构表现出的空间效应越来越明显,原有的将支挡结构各部分分开计算的平面计算方法与实际工程监测结果
近年来,西峡县利用退耕还林项目和世行贷款造林项目。2001年春从郑州金柿基地引进金柿.新发展金柿150公顷。为解决山地金柿投产晚、效益差的问题.西峡县于2001年至2006年进行了