基于标签语义的多标签文本分类模型研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:depewguy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,网络和平台充斥着各种各样的文本信息,如何高效且智能地搭建文本信息的标签体系,成为这些年来主流的研究问题之一。多标签文本分类任务作为自然语言处理领域中一项经典的基础任务,其特有的属性常常表现在标签之间的共现性。因此多标签文本分类模型不仅存在如何更加高效地提取文本特征的问题,还存在如何合理地利用标签共现性的问题。本文基于深度学习模型对上述问题进行研究,主要分为两方面的工作:一方面是基于序列生成式模型和标签语义注意力机制进行研究改进,另一方面是基于胶囊网络和动态路由算法进行分类任务。本人的研究内容如下:为合理且有区别地提取样本的文本特征信息以及缓解序列生成式模型存在的形体处罚问题,本方案设计了一种改进的序列生成式模型:S2S-LSAM。S2S-LSAM模型利用序列到序列(Seq2Seq)的网络结构模式来处理多标签文本分类任务。S2SLSAM模型在编码端利用双向LSTM网络提取文本样本的上下文特征信息,还通过标签语义注意力机制将标签语义和上下文特征进行信息交互,从而帮助模型筛选出候选标签信息以及与标签最为相关的文本特征信息。最后模型依据序列生成的方式进行标签集合的预测,还引入了策略梯度算法对模型进行更进一步的优化。多种实验验证了S2S-LSAM模型的有效性。针对传统多标签文本分类模型存在忽视标签语义信息、无法区分不同位置下文本内容的重要程度以及并没有很好地拟合标签和特征之间的联系等缺陷,本文设计了一种新型但传统的模型:L-RCap。L-RCap模型利用双向循环神经网络提取文本样本的上下文特征。将S2S-LSAM模型的标签语义注意力机制进行改进,直接通过文本特征和标签语义之间的相似度来重构文本特征。此外,引入胶囊网络,将其用于扩展特征信息,加深特征之间的联系。为减轻模型计算量,利用压缩技术将向量化的特征进行压缩。最后,L-RCap模型采用动态路由算法进行标签预测,这种方式加深了预测标签和特征之间的联系。实验结果验证了L-RCap模型的优越性。
其他文献
学位
学位
随着互联网的发展与大数据时代的到来,网络成为人们沟通的主要桥梁。图像作为信息的主要载体承载着各种各样的信息。这些信息中,有些是公开透明的,比如表情图片;有些是保密的,比如企业机密、军事机密等。随着数据的增多,经典计算机的加密效率显然无法满足需求,量子图像加密算法显现出优势。这些加密算法大多是基于几何变换或者是固定顺序的量子逻辑门运算,没有充分发挥量子计算的优势。在分析经典图像处理弊端、量子图像处理
学位
学位
府谷县作为我国最大的金属镁生产基地,采用皮江法炼镁过程中产生了大量的金属镁还原渣被堆存和填埋。通过对府谷县11家金属镁企业的镁渣堆场进行了土壤pH调查测试研究,发现镁渣长时间堆存对土壤pH值有一定的影响,渣场周边土壤pH碱化趋势明显,深层土壤碱化趋势高于表层土壤,重度碱化土壤所在位置与污染迁移途径明显相关。
期刊
视频测量(Videogrammertric Measurement,VM)是通过在被测物上粘贴人工特征点(一般采用回光标记点),再采集其图像解算出被测物坐标与外形的测量方法。仅需相机、标记点和光源等简单设备,即可实现三维坐标的非接触测量。典型的商用VM系统,如美国“V-STARS”和国内“XJTUDP测量系统”等,需采集大量的多视角/大重叠特征点图像,而基于大量特征点图像求解三维坐标十分耗时,成为
学位
作为一种繁殖力极高的浮游生物,不受监测的水母爆发势必破坏海洋生物多样性,甚至严重危害人类的社会活动,如堵塞水电站取水系统,阻碍沿海旅游业的发展等。因此,开发一种水母爆发预警系统是发展智慧海洋的必然要求。是否能够准确并实时监测水母爆发是水母爆发预警系统的关键,但是由于水母生物习性和复杂的水下环境给水母监测带来很多挑战。本文以水母为研究对象,并基于深度学习技术研究高检测精度、快速的水母检测算法,为开发
学位
轧机主传动系统是轧制过程的关键设备,近年来,随着轧制速度越来越高,轧机主传动系统的振动行为日趋明显,严重威胁设备安全和产品质量,对轧机主传动系统振动特性的研究对于指导工业生产非常重要。轧机主传动系统作为一个复杂的非线性甚至非光滑系统,它的运行过程会受到各种因素的综合作用。本文以轧机主传动系统为研究对象,结合机电耦合理论,建立含间隙和混合摩擦的轧机主传动机电耦合系统动力学模型,研究辊缝间摩擦系数变化
学位
蛋白多肽药物具有良好的特异性和生物相容性,治疗效果较好。由于口服给药途径的患者顺应性和安全性更佳,蛋白多肽药物的口服递送已成为当前材料学与药剂学领域的研究热点之一。然而,口服生物大分子药物在胃肠道的稳定性及吸收程度却非常受限。脂质纳米载体能通过化学修饰、疏水离子配对等多种方式有效包载亲脂或亲水性蛋白多肽药物,同时经表面修饰后的脂质纳米载体能克服口服吸收的众多生理屏障,继而促进药物在混合胶束中溶解,
期刊
随着多智能体系统(Multi-Agent Systems,简称MAS)在工程中的广泛应用,一致性控制成为多智能体协同控制的热门领域。完全分布式是指在系统运行中的所有参数不包含对整个图的描述,即不包含全局信息。因事件触发在减少智能体间通信次数有着巨大的潜力,近五年间已有不少作者通过完全分布式事件触发控制实现了多智能体一致性,但是在这些论文中,无法给出智能体的最小内部事件时间(Minimum Inte
学位