基于标签嵌入和自交互注意力的文本分类算法研究及其应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:mqz614005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的互联网时代,互联网产生的文本数据呈爆发式增长,面对大量的文本数据,如何快速地组织和分类这些文本数据并挖掘其背后的价值具有重要的意义。在此背景下,文本分类技术应运而生,文本分类方法通过理解文本的语义并概况出文本的主题内容,进而将文本归类到其所属的类别中,能够帮助用户快速准确的找到所需的信息。目前的文本分类方法大多是基于神经网络的方法,例如CNN、RNN和LSTM,虽然取得了很好的文本分类效果,但仍然面临着很多挑战,在预训练的词嵌入表示方面,如何从海量的文本数据中训练出蕴含更全面语义的词嵌入表示是非常重要的,高效的词嵌入方法一直是自然语言处理领域所需要的。在文本表示方面,当前的文本表示方法往往只考虑了前面的上下文,忽略了后面的上下文和整段文本的交互表示,导致部分的语义丢失。在文本特征提取方面,标签在最后的文本分类中起着核心作用,但标签在文本分类中的作用并没有被充分利用。在此背景下,针对上述问题,本文主要做了三个方面的工作:(1)提出了基于双向长短期记忆网络和标签嵌入的文本分类算法针对上面文本分类面临的三个挑战,提出了改进的基于双向长短期记忆网络和标签嵌入的文本分类算法,首先使用预训练的BERT来获得蕴含更全面语义的词嵌入表示,然后通过BiLSTM捕获了前面和后面的上下文,获得更好的文本表示。并且,词和标签在联合嵌入空间中学习,将学习到的注意力加权最后的文本表示和标签表示,进而捕获到与后面分类任务更相关的特征,同时,标签也学习到与所标注内容更相关的词,最后分类器依据加权的标签嵌入表示对输入的文本进行分类,广泛的实验结果证明了此分类方法的有效性。(2)提出了基于标签嵌入和自交互注意力的文本分类算法本文提出的第一种方法所得到的文本表示并未融合全文的交互语义表示,造成了部分的语义丢失。针对这个问题,本文引入了自交互注意力,进一步提出了改进的基于标签嵌入和自交互注意力的文本分类算法。自交互注意力将整个文本当作上下文,捕获了融合全文交互信息的文本表示。词和标签的联合嵌入学习得到对整个文本序列的注意力,使用学习到的注意力加权最后的文本表示,捕获到与后面分类任务更相关的交互表示,通过大量的实验证明了该分类算法的有效性。(3)设计与实现了基于标签嵌入和自交互注意力的文本分类系统在提出的基于标签嵌入和自交互注意力的文本分类框架的基础上,设计并实现了交互设计良好、分类准确率高的文本分类系统。广泛的系统功能测试结果表明该分类系统能够有效降低完成文本分类任务所需的成本(人工标注成本和财力等),并且有效提高了分类未标注文本的效率,同时有效解决了用户快速准确地获取所需信息的难题。
其他文献
燃油中的有机硫化物不仅在工业生产和存储过程中会腐蚀工业设备和交通工具的发动机,而且在燃烧过程中将产生SOx,导致城市雾霾、大气酸雨等环境污染问题并危害人类生命健康。
黄曲霉毒素(Aflatoxin,AFT)是迄今发现污染农产品毒性最强的一类生物毒素,对人类和动物具有极强的致突变、致癌和致畸性,其中黄曲霉毒素B1(Aflatoxin B1,AFB1)的毒性最强,因此被
视频跟踪一直以来都是人工智能、计算机视觉、图像处理等领域的研究热点之一,有着非常广阔的应用前景。目前该技术在交通监视、医学诊断以及人机交互、虚拟现实等诸多领域都有重要的应用价值。但由于视频跟踪不同于静物识别,其场景变化多端,比如,跟踪目标颜色与背景颜色相近、目标尺度缩放以及旋转、遮挡、光照变化等等,都会导致视频跟踪过程变得更加复杂和不稳定。尽管多年以来诸多研究者提出各种跟踪算法或对现有算法进行了改
斗轮堆取料机是散料装卸中不可或缺的设备。悬臂架是斗轮堆取料机中斗轮和车体的过渡连接部分,同时还是物料运输的载体和决定堆取料位置的结构,是斗轮堆取料机的关键部分,因
自然场景图像中的阴影去除是十分具有挑战性的任务。阴影是在自然场景中采集图像时的一个常见的现象。阴影往往会导致采集到的图像,出现色彩改变、亮度不足或者信息缺失等一系列问题。自然图像的阴影去除,在计算机视觉任务以及一些其他应用中具有重要意义。到目前为止,国内外研究者针对自然场景图像中的阴影去除已经做很多探索,并提出了诸多有效的解决方法。然而复杂背景下图像严重退化(阴影很深)时的阴影去除质量依然有待于进
近年来,随着各种传感器在可穿戴设备上的广泛应用,对于传感材料及器件的小型化、柔性化及稳定性提出了更高的要求。此外,人们还希望可穿戴传感器拥有尽可能多的功能以满足不同领域的需求。在日常生产生活中,难免由于各种原因的外伤导致皮肤出现伤口,伤口大致可分为慢性伤口和急性伤口两类。慢性伤口不仅治疗困难、康复周期长,而且严重的慢性伤口还可能导致截肢甚至危及患者生命。因此,开发和研制可有效监测慢性伤口状态的可穿
公共企事业单位能否作为公开主体,无论在信息公开理论中,还是在实务中,都是一个相对小众化的问题,更确切地说,它是我国政府信息公开制度和实践中存在的特殊问题。通过整理考
传统理论假设地下介质为完全弹性体,地震波在地下介质中的传播过程中不会产生吸收衰减效应。然而,在实际的生产实践中该假设并不成立。地震波在传播过程中会因为吸收衰减效应
同质行为是我国刑事立法的一种现象,是指某些罪的客观实行行为,其基本行为构造呈现出相同属性的情况。罪行的社会危害性程度直接影响其法定刑的设置,罪行性质相同的罪名,其法定刑设置理应具备统一性和对应性。但通过对我国刑法分则条文中同质行为的梳理,可以发现同质行为罪名的法定刑设置不合理导致的罪质消融、质刑不对应、法秩序混乱等问题。为解决这些问题,本文从同质行为的概念界定入手,梳理我国刑法分则中的同质行为罪名
MRI和CT等医学成像模式会受到伪影与噪声的影响.伪影和噪声会导致图像质量达不到临床应用对医学图像的需求,因此对受到伪影和噪声影响的医学图像进行复原是医学图像处理的重