基于标签注意力和相关性网络的多标签文本分类研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhengjiaxun2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签文本分类(Multi-Label Text Classification,MLTC)任务是自然语言处理的核心任务之一,其目标是根据文档与标签的关联程度为文档找到一个或多个最相关的系列标签。MLTC由于其大规模的标签集合,相比于单标签文本分类问题,面临着更加复杂的挑战。现有的MLTC方法在提取局部语义信息、学习标签相关性和解决标签数据不平衡问题方面仍然存在问题。基于对多标签文本分类问题难点的分析,提出一种基于标签注意力和相关性网络的模型。该模型主要包括基于文档和标签信息的文本表示、基于标签分布的相关性网络和基于标签不平衡的标签预测优化三个部分。具体而言,在学习文本表示时,使用标签注意力机制识别与特定标签最相关的语义信息,然后对文档和标签信息进行自适应选择,获得与各个标签最相关的分类鉴别信息,从而生成更具有区分性的文本表示;使用相关性网络对原始标签预测进行增强,通过将其映射为基于标签分布的新预测,减少训练过程中层次语义的丢失,从而学习标签之间的相关性,降低相关标签错分类的概率;在进行标签预测优化时,构建基于标签数量的加权因子,以重新平衡样本数量,并降低标签共现造成的影响,再结合基于预测概率的调制函数,以保留难分类标签的负梯度,减轻负标签的过度抑制,从而有效地解决由标签数据不平衡所造成的问题。将模型在广泛使用的常规数据集AAPD、RCV1-v2以及极端数据集EUR-LEX、Amazon Cat-13K上进行实验并将实验结果与多个已有模型进行对比。实验结果表明,该模型能够被用于处理极端多标签数据,并且在四个数据集上与对比方法相比取得最优或次优的结果。在AAPD数据集上,相比次优的方法能够取得2.05%~5.07%的precision@k增长和2.10%~3.24%的NDCG@k增长,其中k=1,2,3。此外,实验还分析了模型网络参数设置的影响,并验证了各部分网络的有效性。
其他文献
遥感图像目标检测是遥感图像领域的一个重要研究方向,广泛应用于军事侦察和民用监控领域,其关键研究问题是如何提高遥感图像分类和定位的精度。然而,相对于自然图像,遥感图像目标存在排列密集、方向角度多、小目标数量大等特殊问题,利用通用的目标检测模型效果并不理想。因此,研究有效的面向遥感图像的目标检测方法,提升目标检测器的精度,具有重要的实际意义。针对遥感图像目标检测的上述问题,结合检测框设计和深度学习技术
学位
在生物学领域中,常见问题是利用知识网络中已有的信息来预测新的关联,即生物链接预测问题。随着生物学领域的相关研究快速发展,大量的生物学相关信息被发现和研究,对于这些不同类别、不同特征的生物实体,构建生物知识图谱这一方式能够有效地组织专业领域内知识。针对生物领域知识图谱嵌入来进行链接预测这一领域面临的两个问题,即如何将生物实体结构的特殊性与知识图谱嵌入相结合,以及如何对含有结构信息的实体嵌入进行特征提
学位
近年来随着移动互联网技术的发展和数据传输带宽不断增大,有利于信息朝多元化发展,图片、视频成为了人们之间社交信息传播的新媒介。其中短视频时间跨度短,但具有鲜明的主题信息,可以被方便地拍摄并即时分享,易广泛传播并且数量巨大。短视频平台的标签推荐任务生成的标签有助于对不同短视频的粗粒度分类,同时也有助于帮助用户浏览其更加感兴趣的内容,具有重大的研究意义。短视频标签推荐任务中本质上是从视频到文本的训练任务
学位
现有的管道破损探查主要是依赖人工,这种方法耗时且成本高昂。近年来,带有摄像头的管道检测机器人开始应用到地下排水管道检测中,并能够自动采集相关的视频信息。利用视频帧进行实例分割能够识别出管道内部破损区域,但无法判断破损的严重程度。因此,如何利用图像处理和深度学习技术分析管道机器人拍摄视频的深度信息并对破损进行定位和严重程度评估,具有重要的理论意义和应用价值。管道机器人采集的视频帧缺少深度信息,基于图
学位
随着信息技术的不断发展,智能安防系统从政府、高科技企业逐渐向中小型企业发展,智能门禁系统作为其中重要部分,开始应用在更多场景。特别是近年来物联网技术快速发展,为面向企业园区的智能门禁系统带来发展机会。在智能门禁系统向中小企业园区拓展的过程中,改造或者安装新门禁系统的成本不可忽视。因此,新形势下的智能门禁系统,需要具有低成本、低功耗、使用方便、安全可靠的特点。门禁终端是门禁系统的核心,基本功能是验证
学位
近年来,移动互联网技术与共享经济的发展和以智能手机为代表的智能终端设备的普及与应用推动了空间众包的出现和发展。与传统基于Web众包相同,空间众包具有工人、用户和平台三者。用户是众包任务的发起者,工人是任务实际完成者,平台连接工人和用户。不同的是,空间众包处理与位置相关的任务,众包工人需要移动到用户处来为用户提供众包服务。现有空间众包研究在建模上往往忽略了工人与用户的动态性和众包应用的经济性,在任务
学位
近年来,随着深度学习研究与技术的迅猛发展,有标签分类任务在很多领域已经取得了巨大成功,例如在图像分类、目标检测、文本识别、语音识别、视频识别等领域。性能优异的分类模型的训练往往需要借助大量有标签数据来完成。然而,在一些领域,获取有标签数据是极其困难甚至不可能的任务,比如医疗影像、军工数据等。这种训练样本稀缺的机器学习场景就是小样本学习,其目标是在当前任务中仅使用有限数量的训练数据来训练得到性能优异
学位
新时代推动农村教育高质量发展,既是实现高质量教育公平的核心内容,也是适应我国社会主要矛盾变化的客观要求;既是培育高素质高技能乡村振兴人才的主要渠道,也是促进城乡共同富裕的基础前提。以新发展理念为引领,基于大农村教育观和宏观教育质量观视阈来衡量农村教育高质量发展,则以其发展目标是否提质保量、发展动力是否创新驱动、发展形态是否协调均衡和发展指向是否开放共享为主要指标。新时代推进农村教育高质量发展的基本
期刊
随着大数据平台的发展,大数据平台的性能测试对半结构及非结构化数据的复杂度和多样性要求也越来越高。现有数据生成器无法同时支持生成XML、JSON和Web服务器日志格式的数据,且无法同时针对常用的测试场景生成半结构化与非结构化数据;而且已有的XML数据生成器和JSON数据生成器生成数据集的规模以及生成速率无法满足大数据平台性能测试的需求。因此设计并实现一款能够实现快速数据生成的半结构化及非结构化数据生
学位
随着Linux被越来越多的人使用并逐渐成为信息社会的基础设施,Linux的系统资源分配与利用功能的有效性与可靠性就成为了人们眼中日益重要的研究课题。与此同时,随着我国对信息安全的日益重视和信息系统安全标准的日趋完善,一些国家标准对操作系统的资源利用安全功能提出了测试要求,如操作系统应具备对系统资源的管理、分配和限额功能,对用户和用户组占用的系统资源的控制功能,系统资源低于某阈值时的检测和报警功能等
学位