基于卷积特征编码与注意力机制的短文本分类方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：px520

【摘要】

：

短文本分类是自然语言处理领域中的一项基础研究任务。该任务旨在从预定义的类别标签中自动地为给定的短文本指派目标标签。然而,短文本往往缺乏足够的词共现以及上下文特征,

【作者】

：

朱芬红

【出处】

：

苏州大学

【发表日期】

：

2019年01期

【关键词】

：

短文本分类卷积神经网络角度信息语义单元

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

短文本分类是自然语言处理领域中的一项基础研究任务。该任务旨在从预定义的类别标签中自动地为给定的短文本指派目标标签。然而,短文本往往缺乏足够的词共现以及上下文特征,导致传统的文本表示存在特征稀疏问题。目前,采用分布式词向量表征能够较好地缓解这一问题,但是现有的结合短文本语言特性来设计分类方法的研究仍然较少,且分类性能仍有一定的提升空间。因此,本文结合短文本的语言特性分析各方法在短文本分类上的适用性,并对在短文本分类上性能表现较佳的模型展开优化研究,具体内容如下,(1)短文本分类模型架构分析基于统计特征的传统分类方法和基于神经网络的分类方法在短文本分类任务上各有优势与不足,本文结合短文本的语言特性,对上述两类方法中具有代表性的分类方法展开分析,并根据各方法的具体实验结果展开讨论,从而选择适合短文本的分类方法,为后续的优化研究做铺垫。实验证明,基于卷积神经网络的分类方法更适合短文本分类任务。(2)基于卷积特征自适应的短文本分类方法短文本具有用词精炼、包含多角度信息的语言特性。角度信息是指具有领域特性并能够指导短文本主题分类的用词。由于每个角度信息对短文本表示的重要程度不同,若直接拼接各角度特征往往导致文本特征的区分度不强。因此,本文提出一种卷积特征自适应的短文本分类方法。这一方法对各个角度特征进行重要性评估,使网络自动调整各角度特征的权重,从而加大对重要角度特征的关注度,同时弱化无关角度信息的影响。实验证明,该方法有效地提高了短文本分类的性能。(3)基于语义单元相互依赖的短文本分类方法短文本内片段信息往往联系紧密,然而卷积神经网络在抽取文本最优特征时忽略了整体片段信息之间的联系,导致难以抽取全局最优特征的问题。因此,本文提出一种基于语义单元相互依赖的短文本分类方法。这一方法为短文本所包含的语义单元建立相互依赖关系,使网络能够充分理解文本的整体语义,进而抽取文本的全局最优特征。实验证明,全局最优特征的抽取有效地提高了短文本分类的性能。本文结合短文本的语言特性,分析各分类方法的适用性,并进一步结合短文本的语言特性从卷积特征的角度上采用注意力机制优化分类方法,一定程度上提高了短文本分类的性能。在NLPCC2017分类语料上,基于卷积特征自适应的短文本分类方法、基于语义单元相互依赖的短文本分类方法F1值分别比基准模型提升1.70%、1.97%。

其他文献

飞行员如何预防和减少人为差错？

切斯利·萨伦伯格机长曾经说过，一名机长的最高责任和义务是保证安全。这句简短的话道出了我们所有飞行员的使命——一切为了我们乘客的安全！然而安全不是凭空得来的，也并非运气

报纸

牛黄天龙饮含药血清诱导人宫颈癌HeLa细胞凋亡及其机理的研究

目的：宫颈癌是最常见的女性生殖道肿瘤，它严重威胁着妇女的健康和生命。一般认为，浸润性宫颈癌的治疗是手术和放疗。由于手术的局限性及放疗易引起病灶旁正常脏器的永久性损伤和

学位

复方中药血清药理学细胞凋亡Bcl-2c-Myc吖啶橙/溴化乙锭双荧光染色法流式细胞仪DNA缺口末端标记法

人参皂苷YR-1抗肿瘤活性研究

[目的]研究人参皂苷YR-1对动物移植性肿瘤和机体免疫功能的影响。 [方法]采用肿瘤生长抑制实验检测YR-1和Rg3经口给药对小鼠移植性肉瘤S180生长的影响；采用巨噬细胞吞噬鸡

学位

YR－1抗肿瘤活性小鼠肉瘤S180免疫调节

健脾清肠方治疗溃疡性结肠炎（脾虚湿热型）的临床研究

目的:观察健脾清肠方治疗脾虚湿热型溃疡性结肠炎的临床疗效,为中医药治疗溃疡性结肠炎提供临床依据。方法:用电脑随机生成受试号方法将符合纳入标准的66例脾虚湿热型溃疡性结肠炎患者分为治疗组(33例)和对照组(33例)。治疗组给予导师经验方健脾清肠方口服,对照组给予美沙拉嗪肠溶片口服(国药准字H20103359黑龙江天宏药业股份有限公司1.5g tid),治疗8周后观察治疗前后两组患者的临床综合疗效、中

学位

健脾清肠方溃疡性结肠炎脾虚湿热型临床研究

国立科研机构薪酬制度有效性分析

薪酬制度的有效性直接关系创新效率，有效的薪酬制度需要具有竞争性、公正性和激励性特征。对科研事业单位科研人员薪酬状况的调研结果显示，目前我国的科研事业单位，尚未形成有效

期刊

国立科研机构薪酬制度有效性

我国古代学者人口思想浅探

我国是一个人口众多的发展中国家,人口适度,是我国社会要解决的、十分重要的理论和现实问题。我国古代部分学者在对于“人口剧增所带来的危害”、“人口增长与资源相适应”,

期刊

人口资源经济协调发展

麻疹病毒细胞受体研究进展

麻疹病毒是一种引起儿童急性呼吸道感染的传染病,属于副黏病毒科麻疹病毒属,同属的还包括犬瘟热病毒、牛瘟病毒等。细胞受体是病毒入侵易感细胞和启动感染的关键。目前,3种蛋

期刊

麻疹病毒细胞受体研究进展

荣盛物业,呵护业主新生活!

<正>荣盛物业服务有限公司成立于2000年11月,注册资本500万元,是中国物业管理协会会员单位,下辖1个子公司、8个分公司。目前公司已接管的住宅小区分布于廊坊、南

期刊

物业管理协会

基于蠕变柔量求解沥青混合料连续延迟时间谱

根据AC-13C沥青混合料在5种不同温度下的单轴压缩蠕变试验结果,利用时温等效原理得到沥青混合料的蠕变柔量主曲线;应用蠕变柔量与延迟时间谱之间的数学关系,获得连续延迟时间

期刊

道路工程沥青混合料延迟时间谱蠕变柔量主曲线

铬天青S分光光度法测膨化食品中铝

目的:探讨铬天青S作显色剂测定膨化食品中铝的方法。方法:样品经消化后,在乙二胺-盐酸缓冲介质存在下,铝与铬天青S和聚乙二醇辛基苯醚及溴代十六烷基吡啶形成稳定蓝色四元体

期刊

铬天青S膨化食品铝方法改进

基于卷积特征编码与注意力机制的短文本分类方法研究

与本文相关的学术论文