基于改进seq2seq模型的多标签文本分类研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户：qqqq920644875

【摘要】

：

随着人工智能技术取得了长足发展,神经网络被广泛应用到自然语言处理任务中,并且取得了革命性的进步。文本分类是自然语言处理领域的一项重要基础性任务,随着互联网上信息的

【作者】

：

刘心惠

【出处】

：

大连海事大学

【发表日期】

：

2020年01期

【关键词】

：

多标签文本分类特征融合联合模型文本表示神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人工智能技术取得了长足发展,神经网络被广泛应用到自然语言处理任务中,并且取得了革命性的进步。文本分类是自然语言处理领域的一项重要基础性任务,随着互联网上信息的日益复杂多样,数据内容日益丰富,分类粒度越来越细,传统的单标签文本分类不能很好地达到人们的期望,因此,对于多标签文本分类的研究应运而生。多标签文本分类任务是自然语言处理领域的主要研究任务之一,为信息检索、推荐系统、对话系统等提供了极大的便利,具有极大的研究前景和应用价值。因此,本文对多标签文本分类问题展开研究。文本的特征提取、单词的向量表示和标签间的相关性问题是多标签文本分类领域的核心基础技术。本文围绕这些问题,对序列到序列模型seq2seq展开了研究改进,主要研究内容包括:一、针对无法有效地突出词级重点信息,文本的局部特征和全局特征使用不充分问题,构建联合模型来全面的提取文本特征。该模型的构建主要是利用多头注意力机制来区分每个单词对于文本识别的重要程度,从而获取关键词信息,胶囊网络提取文本的局部特征表示,BiLSTM网络提取文本的全局特征表示,并通过特征融合策略进行特征融合,从而获得更为全面、细致的文本特征。二、针对传统的词向量无法解决单词歧义性、不会根据上下文信息变化,并且无法既捕获多层次文本特征,又获取标签之间相关性等问题,在传统的seq2seq模型的基础上,分别改进文本的向量表示和编码器结构,构成改进的seq2seq模型,不仅能够获得丰富的语义表示,还能捕获标签之间的相关性。通过ELMo预训练语言模型和GloVe词向量构成文本的向量表示,以获得更丰富的语义信息;编码器为本文提出的联合模型,获取多层次的文本特征;利用解码器捕获类别标签间的相关性,使分类性能进一步提高。实验结果表明,本文模型在多标签文本分类任务中展现出了较好的性能,充分证明了本文模型的优越性。

其他文献

离散时间时滞随机系统滚动时域控制研究

本文研究了一类具有时滞的离散时间随机系统的滚动时域控制(receding horizon control,RHC)问题.分别针对具有状态时滞的随机系统、具有状态时滞的广义随机系统和具有输入时

学位

滚动时域控制随机系统广义系统时滞镇定

基于随机位置选择和矩阵编码的语音信息隐藏方法

随着基于IP的语音传输VoIP(Voice over Internet Protocol)的语音数据流在原始语音经过压缩编码之后,诸多的冗余信息为隐秘信息的嵌入提供了合适的选择,可以实现秘密语音信息

学位

信息隐藏随机位置选择矩阵编码基音调制静音帧

基于长短期记忆网络的飞机APU故障诊断研究

辅助动力装置(Auxiliary Power Unit,APU)作为飞机的重要装置,不仅可以保证飞机安全启动,在飞机停在地面时,还为飞机供气,供电,保证客舱舒适性。因此,对飞机APU进行故障诊断

学位

飞机辅助动力装置长短期记忆网络自适应粒子群量子粒子群批规范化

基于自适应特征提取与人类视觉系统特性的数字水印方法研究与实现

在数字水印技术中,版权信息被嵌入到多媒体内容中可以很好的证明所有权。因此,近年来,很多新颖的数字水印方法被提出。其中,基于特征、人类视觉系统(HVS)特性和离散余弦变换(

学位

数字水印人类视觉特性特征提取自适应

供热末端系统控制策略研究

随着生活水平的提高,供热过程中人们对供热舒适性的要求越来越高。目前城市建筑集中供热末端“全开”和“全关”的控制方式既降低了室内的热舒适性,也造成了不必要的热量损失

学位

供热末端系统PID控制器Q学习自适应

改进灰狼算法在天线设计中的应用

随着社会的发展与科技的进步,人们在生活中遇到的许多科学、经济和工程问题呈现多极化、非线性、强约束、高维度等特点,传统的优化算法已经很难求得问题的最优解。因此,寻找

学位

灰狼优化算法纵横交叉算法Hammersley序列微带漏波天线MIMO天线

基于进化计算的多目标柔性作业车间调度问题研究

随着市场全球化的到来,企业面临着日趋严重的激烈竞争,为了满足客户的个性化需求,迫切需要生产调度系统能够迅速可靠地实现小批量、短周期、高质量的定制化生产,这对制造系统

学位

柔性作业车间调度问题多目标优化NSGA-ⅢCS邻域搜索

煤层静压注水参数优化及含水量对煤自燃的影响研究

我国煤炭资源丰富,矿井分布广泛。近几年,随着矿山安全技术发展的越来越成熟,矿山灾害事故在逐年减少。但是,矿井瓦斯、粉尘、火灾等灾害仍然对煤矿的安全生产造成了严重威胁

学位

煤层静压注水湿润半径数值模拟工艺优化效果分析

若干深度学习库解决手写体数字分类问题的比较研究

目前,机器学习正在蓬勃发展。机器学习不仅与更快,更容易,更便宜的数据的收集与处理的方法有关,还与来自于物理学、生物学、经济等学科采集的数据进行建模的方法的发展有关。

学位

机器学习神经网络深度学习手写数字图像数据库

把严的主基调长期坚持下去——对供销社系统开展反腐败透视的专题调研

今年9月,中央纪委国家监委驻中华全国供销合作总社纪检监察组会同总社有关部门组成5个调研组,分赴北京、天津、内蒙古等7个省(区、市)供销合作社,对供销社系统集中开展反腐败

期刊

供销社供销合作社全面从严治党反腐败专题调研

基于改进seq2seq模型的多标签文本分类研究

与本文相关的学术论文