基于深度神经网络的文本分类研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户：oishiocean

【摘要】

：

【作者】

：

张伟

【出处】

：

湖北工业大学

【发表日期】

：

2021年06期

【关键词】

：

自然语言处理深度学习新词识别文本表示文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是自然语言处理领域的任务之一,在邮件检测、情感分析、和主题类型等领域都有广泛的应用。文本表示是文本分类的关键和基础。当前通用的文本表示方法是词袋模型或词嵌入模型,失去了大量的语义信息。近年来,文本数据量野蛮增长,深度学习高速发展,以及计算机的性能巨大提高,使得深度学习技术在对文本进行表示和分类方面受到了极大的关注。深度学习采用卷积神经网络、循环神经网络和注意力机制等对文本进行表示和分类,其效果要优于传统的机器学习模型,但是,目前网络上的文本在词语的使用方面较为随意,网络用户自行创造词语并被其他人大量的情况屡见不鲜。使得在文本分类任务中,对中文文本进行分词的时候,分词词典无法识别并切分这些网络新词,文本表示结果不够准确,一定程度上制约了文本分类模型的性能。本文提出了新词识别技术以及三个基于深度神经网络的文本表示和分类模型。具体如下:1.基于新词识别的零填充深度神经网络模型,NW-ZPDNN。针对分词工具无法准确识别网络新词的问题,本文提出新词识别技术对分词工具的分词结果进行处理,以得到更准确的分词结果。同时,借鉴深度学习在文本表示上的优势,设计了基于深度学习的NW-ZPDNN模型,使用zero padding技术将不定长文本转换成定长文本,使用BiRNN提取高层次文本上下文语义信息,使用CNN提取更加抽象的语义信息,并减少计算量。之后使用最大池化操作来获取文本的关键信息,最后采用softmax分类器进行分类。实验表明,NW-ZPDNN模型在处理文本分类问题时,取得了较高的准确率。2.基于新词识别的滑动循环神经网络模型,NW-SLDNN。针对分词工具对网络新词识别能力不足的问题,依然采用本文提出的新词识别技术,得到更加准确的分词结果。同时,提出滑动循环神经网络,重点关注文本的局部上下文信息,使用1x1卷积神经网络引入非线性因素增加模型的表达能力,并且实现跨通道通信,从而达到提取到更高层次的文本特征的目的,还降低了计算量。之后使用最大池化操作来获取文本的关键信息,最后采用softmax分类器进行分类。试验表明,NW-SLDNN模型在处理文本分类问题上,取得了较高的准确率。3.基于新词识别的注意力机制神经网络模型,NW-AttenDNN。针对分词工具对网络新词识别能力不足的问题,依然采用本文提出的新词识别技术,得到更加准确的分词结果。在文本信息提取上,采用动态循环神经网络和注意力机制,将不定长文本进行编码并提取高层次语义信息,然后将编码进行解码得到一个统一长度的序列特征,经过全连接层的转换后采用softmax分类器进行分类,试验表明,NW-AttenDNN模型在处理文本分类问题上取得了较高的准确率,由于加入了注意力机制,使得文本的关键信息保留的更加完整且模型也具备可解释性。

其他文献

配用电光通信网络质量分析模块的设计与实现

智能电网建设现在已经成为国家电网公司建设的重点,配用电通信网作为与配用电网配套建设的信息传输服务网络,是智能电网建设的重要部分。由于配用电通信网覆盖面积广,运行环

学位

光通信网分析指标网络质量分析层次分析法CRITIC方法

多机系统的自适应分散控制研究

电力系统的镇定控制至关重要,是维持电力网络安全可靠运行的关键。通过改进的控制方法来改善电力系统的性能,是提高电力系统运行稳定性最有效的手段之一。因此,研究电力系统

学位

多机系统励磁控制汽门控制自适应分散控制

洞桩法地铁车站施工稳定性及对地中构筑物的影响分析

针对不同地质条件问题,土木工程建设施工是一个不断应用与创新突破的过程。北京地铁16号线苏州街地铁站工程施工针对现场施工条件,对洞桩法八导洞施工进行工法调整,提出仅保

学位

地铁车站洞桩法地中构筑物高水位抗浮

铂合金及其表面结构的催化特性研究

燃料电池不仅来源广而且对环境非常友好,另外其能量转换效率也很高,这些优点使得其成为了替代传统石化燃料的新型能源,燃料电池得到目前世界各国的广泛关注。质子交换膜燃料

学位

Pt3M合金Pt-skin/Pt3M（111）表面第一性原理物理性质氧还原机制催化剂

城市轨道交通线路三维快速设计系统的三维环境管理与选线设计研究

城市轨道交通线路与交通分流、工程造价、乘客舒适满意度等密切相关,因此线路的好坏至关重要。现有的城市轨道交通线路设计方法多是基于地形平面图和调查勘探资料在二维设计

学位

三维浏览三维空间点获取OpenTK三维可视化线路三维交互设计

基于XML编码的远程医疗数据共享技术研究

随着移动互联网技术的不断发展,远程医疗逐渐成为了当前医疗服务发展的主要方向。远程医疗提升了医疗服务质量,降低了医疗服务的成本。然而远程医疗系统中不同医疗设备导致的

学位

远程医疗数据共享XML高效性经济性

疫苗接种在婴儿痉挛症和结节性硬化儿童的实施调查

预防接种是人类预防各种传染病最有效的手段,然而接种相关不良事件特别是神经系统相关的不良事件增加了家长及医师对预防接种的顾虑,需要调查研究和分析。我们的研究分为三部

学位

婴儿痉挛症结节性硬化雷帕霉素免疫接种保护率

航空柔性轴装置试验系统的设计

随着计算机及自动化检测技术的发展,我国很多试验台和试验系统需要进行自动化试验技术改造,特别是航空领域。比如手动操作常规仪表,试验结果和数据由人工读取等现象。随着现

学位

柔性轴以太网面向对象上位机虚拟仪器

航空通信中嵌套NEMO网络多播服务的研究

由于NEMO(Network Mobility)具有网络整体移动性,已经被广泛的应用于车联网、航空、航天等领域。航空通信环境具有移动速度快、范围大、空地链路带宽有限等特点,如果将现有的

学位

航空通信嵌套NEMO移动多播无缝切换路由优化

内河在役直立式码头构件承载力的弱化规律的研究

钢筋混凝土是当前人类工程建设中使用的最大宗建筑结构材料。近年来,随着大量港口工程在服役寿命期内由于各种恶劣环境的腐蚀而发生破坏,港口工程混凝土结构的承载力弱化规律

学位

强度碳化锈蚀率承载力统计分析

基于深度神经网络的文本分类研究

其他学术论文