基于标签嵌入的胶囊网络文本分类算法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:gutj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类任务属于自然语言处理(Natural Language Processing,NLP)领域中的一个基础且十分重要的子任务。该任务旨在为一段文本打上对应的标签。比如对新闻文本数据进行主题分类,对电商平台的用户评论进行星级预测等。随着互联网数据的爆发式增长,如何对这些庞杂的文本数据进行分类已成为了一个非常重要的研究方向。目前最常见的文本分类方法主要都是基于深度学习模型的,其中主要包括卷积神经网络(Convolution Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、胶囊神经网络(Capsule Networks,Caps Nets)以及一些基于标签嵌入的方法。其中,Caps Nets由于将标量特征替换成了向量表示,便拥有了更加强大的语义信息表达能力,并利用路由算法尽可能多地捕捉了有用的高级文本特征,极大提升了文本分类的效果,但仍然存在一些不足。本文通过对当前大部分基于Caps Nets研究方法的分析和总结,总结出以下问题:一是目前的方法都是利用CNN提取定长的局部文本特征(多元语法特征—n-gram),而忽略了单词所对应各个多元组的重要程度应该是由具体上下文决定的这一问题,这将直接影响到模型对整个文本的语义理解;二是仅仅在预测阶段利用文本标签作为监督信号使用,而忽略标签本身所富含的丰富语义信息;三是在Caps Nets高层与低层胶囊之间进行全连接路由,使得一些来自低层的冗余语法语义信息被传送到高层胶囊,这些信息将会干扰分类结果。针对上述问题,本文对目前基于Caps Nets的文本分类模型进行了改进,本文的主要工作如下:第一,构建了“多尺度特征部分连接胶囊网络文本分类模型”(Mul Part-Caps Nets)。将多尺度特征注意力融入到了Caps Nets中,多尺度特征注意力能够利用CNN自动为每个单词选择不同尺度的多元组,通过对其对应的特征进行加权求和,就能为每个单词精确捕捉到丰富的多元语法信息以帮助胶囊网络对文本特征的建模;同时,由于多尺度特征注意力的引入,不再需要多个相似的完整胶囊网络层去捕捉不同尺度的语法特征,参数规模也得以大大缩减;最后,提出的部分连接路由算法(Partly-connected Routing Algorithm),让高层胶囊仅仅与部分相邻的低层胶囊保持连接,即将低层与高层胶囊之间较小的路由权重去掉,并将剩下的权值重新进行加权平均,以使得权值之和保持为1,这有利于减轻低层胶囊中的冗余语法语义信息向高层胶囊的传递,这样高层胶囊所提取到的文本特征才会更加准确。第二,本文将文本的标签信息也引入到了胶囊文本特征建模的过程中,在Mul Part-Caps Nets的基础之上构建了“融入标签信息的多尺度特征部分连接胶囊网络文本分类模型”(Mul Part Lab-Caps Nets)。通过计算单词与标签集中所有标签的相关性,为每个单词分配相关性最大的那个标签权重作为补充信息进行文本表示学习,这样模型能根据标签中的语义信息强化与分类相关单词的在训练过程中的作用,而弱化与分类无关信息对模型的影响。本文在7个大规模文本分类公共数据集上进行实验,实验结果表明,本文所提出的模型在分类准确度上达到了1个百分点左右的提升,最高可达1.7个百分点;同时也对模型进行了参数规模分析,在利用了更丰富多元语法特征且不影响模型效果的前提下,缩减了3/4的参数量,验证了模型方法有效性。
其他文献
鞍区的周围毗邻着Willis环、视神经等重要的神经血管结构,是病变的好发部位。颅咽管瘤(Craniopharyngioma,CR)、鞍结节脑膜瘤(Tuberculum Sellar Meningioma,TSM)、Rathke’s囊肿(Rathke’s Cleft Cysts,RCCs)和垂体瘤(Pituitary Adenomas,PAs)是鞍区最为常见的病变。磁共振成像(Magnetic Re
值函数估计在深度强化学习算法中应用广泛,并且在状态和动作空间较复杂的环境中可以解决传统强化学习中遭遇的维度灾难问题。因此,值函数估计的研究在深度强化学习领域具有十分重要的意义。但在深度强化学习算法值函数估计的过程中存在一些问题:(1)在更新值函数的过程中,算法普遍选择当前状态下最大的动作状态值(Q值)估计来计算目标Q值,导致算法过高估计Q值,对性能造成不利影响。(2)基于值函数的深度强化学习算法在
自然语言处理中的信息抽取任务是指抽取自然语言文本中的实体、实体关系和事件等结构化信息,是一种将非结构化或者半结构化的文本数据,转化为结构化信息的技术。随着互联网的飞速发展,网络上存在越来越多的以文本形式存在的数据,如何快速将大量无结构的文本数据转化为有结构的信息,为下游应用提供数据支撑,是信息抽取需要解决的问题。信息抽取的具体任务包括命名实体识别、实体关系抽取和事件抽取。其中,命名实体识别与实体关
交通标志检测在辅助驾驶以及无人驾驶领域中都有重要地位。在这一领域,技术方法百花齐放,都是对获得的标志图像进行检测。其中使用深度学习检测算法进行交通标志检测已经成为当下交通标志检测的重点研究领域。在道路交通中,由于复杂的道路交通情况以及驾驶员可能出现的身体不适或者精神不集中等情况,单靠驾驶员用肉眼识别交通标志常常会出现各种各样的问题,所以通过其他方式进行交通标志检测的需要逐渐增大,同时在智能交通和自
RNA结合蛋白(RBP,RNA Binding Protein)是普遍存在的能与RNA结合的蛋白质的总称,RBP通过与RNA特异性结合,直接或间接地调控RNA的表达。在生物体内大部分的RNA发挥作用都要与蛋白质相结合,RBP与特异RNA结合的过程又称为RNA-蛋白质相互作用。RNA-蛋白质相互作用的预测是目前生物医学工程领域的重要研究课题,如何利用计算方法提高其预测精度成为当今国内外研究的热点。现
肾脏疾病在现代社会中已成为全球发生率第四高的重要疾病,在我国更有超过11%的人口属于不同程度的肾脏病患者,全球每年超过百万肾脏患者发展成为肾衰竭、肾肿瘤等恶性病变。肾脏病变的早期筛查对于及时诊断和控制病情发展有着重要作用,而肾脏疾病的临床诊断十分依赖于彩超和CT等医学影像检查方式以及医生的专业水平。但在我国,医生以及医疗设备等医疗资源随地域分布严重不均,同时医生需要分析和处理大量的影像数据,人工阅
预后(Prognosis)指对疾病可能的进程及结果的估计。癌症基因组图谱(The Cancer Genome Atlas,TCGA)等数据库的出现为研究人员提供大量丰富且权威的数据,推动了基于基因组学数据的癌症预后预测研究。当前,癌症预后预测的研究成果主要集中于BRCA、NSCLC、GBM等样本数较多的疾病类型;预后预测模型更多从生物学角度对基因特征进行分析,缺乏从计算角度分析基因特征进而发现潜在
光学相干层析(Optical Coherence Tomography,OCT)是一种利用光的干涉现象对样本进行断层扫描的成像技术,因其对人体无伤,成像深度大,成像分辨率高,对生物组织的层析能力强等特性而被广泛地应用于医学诊断和辅助治疗之中,尤其在眼科前景广阔。但是,目前主要有两个问题阻碍了OCT技术的进一步发展:1)低相干干涉成像引入的散斑噪声问题。OCT成像系统采用宽带光源,在进行低相干干涉成
单个无人机的应用场景相较于多无人机来讲局限性较强、任务执行效率较低,多无人机协同具有更好的稳定性、适应性,因此多无人机协同技术的研究显得十分关键。而多无人机的路径规划是无人机协同技术的基石。Dijkstra算法和A*算法是路径规划技术的经典算法。此类算法对于已知环境能够规划出合理路径,但是对于未知环境,算法表现则不太令人满意。一些智能优化算法,如蚁群算法、粒子群算法、遗传算法等,也被用在无人机的路
随着工业互联网建设的大力推进,工业控制系统网络逐渐从封闭式向开放式转变,但工控安全系统的发展相对而言却有些落后。近年来,工业控制领域的攻击事件逐年上升。由于工业控制系统重点应用于许多与民生紧密相关的领域,一旦这些领域的工业控制系统遭到攻击,将会产生非常恶劣的影响。而入侵检测是一种可以保护系统安全的有效措施,可以有效地发现安全威胁。因此,近年来,针对工业控制系统的入侵检测受到了相关从业人员和研究学者