基于深度学习的短文本分类技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:nathon_zhwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的人喜欢通过各种手机应用软件在互联网上发布和获取信息,这些信息主要以短文本的形式存在。短文本分为两类,一类是描述信息,通常涉及多个主题,比如一条知乎提问,可能同时关于“经济”、“文化”和“旅行”。为了利用智能化技术在分类展示、信息检索等领域提升用户体验,对这些短文本进行多标签分类具有重要意义。另一类表达主观情绪和意见,如商品评价、社会热点讨论等,这些短文本的情感极性分类对商家分析用户反馈,政府部门了解民情、宏观调控网络舆情具有重要意义。短文本具有篇幅短、特征稀疏、主题多变、表达口语化等特征,以人工特征分析为主的常规文本分类算法不能直接应用,但专门针对短文本分类技术的研究相对较少。近几年,深度学习技术自动学习、可提取高维特征的特点,吸引了很多学者将其应用到文本分析领域中来。因此,本文针对基于深度学习的短文本分类技术展开了研究,主要工作总结如下。首先,调研了文本分类技术的国内外研究现状,介绍了基于深度学习的文本分类流程中涉及的主要技术。在文本表示模块,深入研究了中文文本分类领域经典的Word2Vec词向量模型和新出现的能表示“一词多义”的BERT预训练语言模型,特征提取模块,研究了经典的CNN和RNN系列模型,结合场景需求,将其应用到本文提出的方案中。针对短文本的多标签分类问题,提出了一种基于深度学习的短文本多标签分类方案。先对文本预处理,然后使用BERT和Word2Vec对文本进行不同粒度的词向量表示,将Word2Vec表示的词向量采用Attention和CNN模型聚合特征为句向量,BERT词向量直接池化处理成句向量,然后拼接两个句向量作为全局特征,进行多标签分类。通过实验验证,该方案在知乎多标签数据集上取得了比传统方法更好的性能。针对短文本的情感极性分类问题,提出了一种基于深度学习的短文本情感极性分类方案。先对文本预处理,使用BERT模型进行词向量表示,然后将结果输入Bi GRU算法抽取全局语义信息,再用Attention机制对主要情感词进行提取,最后输入分类器判断情感极性。通过实验验证,该方案从各个评价指标上都表现出了很好的性能。
其他文献
电力物联网利用物联网技术进行状态感知和决策控制,提高了电网的智能化水平,是推动电力行业未来发展的重要组成部分。基于边缘计算的电力物联网能够在近数据源的网络边缘进行任务处理,减小泛在业务终端的时延和能耗。但是单个边缘节点的计算能力有限,终端任务需要在多个边缘节点之间进行合理调度来满足业务需求,因此研究边缘计算中的工作负载分配机制对提升电力物联网性能有重要意义。目前工作负载分配机制局限于优化影响时延或
随着5G的商用和B5G概念的提出,无人机通信成为学术界和产业界关注的研究方向。一方面,无人机基站可以作为辅助设备协助传统通信网络以提高网络性能;另一方面,由于无人机基站具有部署便捷、配置灵活和成本相对较低等优势,可以满足补盲、补热场景的高覆盖大容量动态业务需求。为了进一步提高无人机通信数据容量,波束通信被应用于无人机基站,包括毫米波波束通信和宽波束通信。因此,本文主要研究用户为中心无人机基站网络的
在数据爆炸时代,信号处理、图像处理和模式识别等领域中的许多问题都需要处理高维数据集。然而,随着数据维度的增大,数据处理难度呈指数级增长。因此,在减少数据信息损失的同时最大限度的挖掘出高维数据中的自然关联成为了国内外研究的热点。幸运的是,在图像处理等领域中获取的高维数据矩阵往往是低秩或近似低秩的。本文主要研究低秩矩阵逼近模型在高光谱图像去噪、背景前景分割、及彩色图像重建等领域中的应用。论文的主要工作
中国是世界第一制造大国。近些年我国的制造业在信息化水平、科技化水平和自主创新能力方面得到了巨大的提升。电梯制造业在我国制造业转型,推动城市化进程和进出口贸易当中占有重要比例。与电梯相配套的电子化产品也越来越丰富,其中电梯手持操作器就是其中的一款重要的电子设备。电梯维保人员可以通过它和电梯主控系统交互,实现信息查询、参数设置,从而达到电梯高效运行和电梯维护保养的目的。具有操作简便、实时性强和良好的抗
随着科技的高速发展,航空航天、轨道交通、高端工业控制等领域对业务传输的实时确定、安全容错方面的特性要求越来越高,传统以太网提供的尽力投递服务方式显然无法满足需求。确定性以太网在传统以太网的基础上引入了时钟同步与时间触发两项核心技术,使得网络具备实时确定、安全容错的通信能力,有效地解决了高实时性、高安全性业务的传输问题。本论文结合科研项目“确定性以太网交换机的设计与实现”,重点研究了确定性交换网络的
近些年,随着互联网的蓬勃发展,人们已经步入“不出门便知天下事”的时代。该现象的产生主要由于各种各样的社交平台的诞生,包括Twitter和微信等。这些平台与人们的生活息息相关,例如,人们通过微信与亲戚朋友沟通交流。此类社交软件在丰富了人们日常生活的同时,也为研究人员们提供了大量的多域数据。为了提高不同社交平台数据的利用率,并将不同社交网络的账号信息整合在一起,必须将不同社交平台中的账号进行对齐。然而
随着信息技术的高速发展,人们对安全可靠的通信技术和高效的信息处理速率的需求日益迫切。由于光学器件和光子技术的蓬勃发展,使得安全光通信系统和光信息处理技术迎来了新的机遇。新型半导体纳米激光器由于体积小、高性能、速度高、易集成等优点,所以该器件在光子集成电路与系统芯片技术发展方面具有潜在的应用价值。因此,本文重点研究了关于新型半导体纳米激光器的时延特性以及结合神经网络的储备池计算系统。主要通过以下三个
随着科学技术的发展,基于数据驱动的智能诊断逐渐成为研究热点。滚动轴承是旋转机械的重要零部件,也是最易损坏的零部件,对其进行性能退化评估,及时判断故障情况并做出相应的维修策略具有重要意义。因此,大量的学者开始研究数据驱动下的轴承性能退化评估方法。数据驱动下智能评估方法主要包括特征提取和智能模型。滚动轴承运行工况复杂,针对振动信号特征提取困难的问题,采用小波包变换与信息熵结合的特征提取方法,有效的处理
班级作为我国高中教育体系中的最小组成单位,在高中教学中起着基础性和关键性的作用。大部分高中教学和管理活动的开展都要依靠班级管理工作来实现。如何更好的实现高中班级管理,提高教书育人的效果一直是人们关注的一个热点话题。班级管理严格来说涉及教育学、教育管理学、行为逻辑学和心理学等多门学科,是一项复杂的系统工程。因此要想提高班级管理的效果就必须引入相关学科中的先进理论和方法来优化目前的班级管理体系。随着时
学位