面向小样本的短文本分类方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:joycev
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的迅速发展,每天产生数以百万计的短文本,其中包含兴趣、意图等各种有价值的用户相关信息。因此,短文本信息挖掘与分类具有重要的实际应用意义。然而,短文本具有特征稀疏、噪声高等特点,使得很多机器学习方法应用于短文本分类时出现性能下降问题,同时,许多神经网络模型在训练时依赖大量标记样本,但是现实中,获得大量标记数据十分困难。基于以上原因,小样本条件下的短文本分类成为自然语言处理领域的研究热点之一。因此,研究面向小样本的短文本分类方法具有重要的理论价值与现实意义。文本数据增强技术可以有效解决小样本条件下标记样本不足的问题,但是目前文本的数据增强方法操作单一,较少考虑短文本篇幅短小、特征稀疏等特点;针对短文本特征稀疏问题提出的语义增强方法大多从单维度考虑,语义增强不够丰富,易丢失短文本语义信息;目前被证明能够进行高质量节点分类的图卷积网络对于异构图研究较少,且基于图卷积网络的小样本学习方法较少关注短文本分类和因标记样本过少引发的过拟合问题。针对以上问题,本文从面向小样本的多重数据增强、面向短文本的多维度语义增强、基于异构图卷积网络的小样本短文本分类模型构建三个方面展开研究。主要工作和成果如下:(1)提出了面向小样本的多重数据增强方法从短文本的词语级、短语级、文本级三个层次,设计多重数据增强方案,适量增加标记样本数量,降低小样本条件下标记样本不足对分类模型造成的影响。设计融合词语重要性的词语级数据增强算法,充分考虑不同单词的重要性,降低数据增强时随机注入的噪声信息;探索基于同义短语替换与高倍回译的短语级数据增强方法,在最大程度保留短文本语义信息的基础上,进一步增强小样本短文本数据集;设计基于GPT-2语言模型的文本级数据增强算法,充分利用预训练语言模型的优异性能进行文本生成,并引入半监督文本分类模型过滤新文本,保证数据增强时同质异构的变化,避免引入过多噪声数据;设计对比实验,结果表明面向小样本的多重数据增强方法从数据层面有效缓解了小样本条件下标记样本不足的问题。(2)设计了面向短文本的多维度语义增强方法从文本表征、实体、潜在主题三方面,研究了短文本多维度语义增强方法:提出融合XLNet多层特征的语义增强算法,提取XLNet模型中存储短语级信息、语法和语义信息的多层特征编码作为短文本表征矩阵;设计基于语义匹配实体链接的语义增强算法,提取实体和实体描述内容,以丰富短文本语义信息;设计基于词对降噪主题模型的语义增强算法,用于挖掘短文本潜在主题信息,进一步扩展短文本语义特征;设计对比实验,结果表明所设计的三种语义增强方法有效解决了短文本特征稀疏问题。(3)设计了基于异构图卷积网络的小样本短文本分类方法针对小样本条件下标记样本数量稀少和短文本上下文信息缺乏、语义特征稀疏的问题,设计基于异构图卷积网络的小样本短文本分类模型:在表示层,基于所提出的多重数据增强方法,适量增加标记样本数量,并利用所设计的融合XLNet多层特征的语义增强算法将短文本转为表征矩阵;在语义增强层,基于所提出的多维度语义增强方法构建短文本异构信息网络STHIN,实现短文本多维度语义增强,解决短文本特征稀疏问题;在图卷积层,构建异构图卷积网络HGCN,采用随机去邻策略,增加短文本异构信息网络的随机性和多样性,缓解过拟合问题,同时,设计融合多类信息的异构图卷积传播规则,充分考虑多种类型节点和关系的消息传播,实现STHIN中文本节点特征的有效更新,并设计基于STHIN特点的双重注意力机制,以捕获STHIN中不同节点语义信息的重要性;设计对比实验,结果表明本文所提出的面向小样本的短文本分类模型在小样本短文本分类任务上取得了具有竞争性的效果。
其他文献
给定一张未化妆的源图像和一张任意妆容的参考图像,妆容迁移目标是生成一张新的图像,该图像具有参考图像口红、眼影、腮红等妆容信息,又保留源图像人物身份、表情、姿态以及背景等内容信息。因其广泛的应用场景和巨大的市场需求,妆容迁移得到了越来越多的关注和研究。在妆容迁移任务中,主要有两方面的内容需要学习,一方面是建立源图像和参考图像之间的语义对应关系,另一方面是提取参考图像的妆容信息。现有的妆容迁移算法利用
学位
场景图像中的文字包含丰富的高层语义信息,精确检测场景文本有助于感知和理解图像,文本检测一般采用基于目标检测和基于语义分割的方法。基于目标检测的文本检测方法大多依赖于锚策略生成文本候选区域框,但锚定位框依赖于人工设定,不能很好的满足自然场景图像不同尺度、形状和方向文本的检测问题,而且会产生大量重复检测,影响检测精度和效率。另外,此类方法学习的是单词或文本行级的特征,无法获得字符级特征以及拟合曲形文本
学位
行人再识别是利用计算机视觉系统,在图像或者视频集中搜寻给定人物的任务。任务特点是该人物会从一台相机的视野中消失,然后出现在另外一台与前述相机无重叠视野的相机中。行人再识别已经被广泛应用于社会安保和安防中。目前大多数的研究工作专注于可见光条件下的彩色图像。然而在光线不足的情况下,传统彩色相机的成像是无效的。为了解决光线不足导致彩色相机无法成像的问题,红外相机成为了一个可替代的方案。基于红外相机的成像
学位
信息的爆炸式增长促使了自然语言处理技术的发展,如何高效地从海量的文本数据中提取出有用的语义信息是目前研究的重点与难点问题。结合自然语言本身的特点,本文从序列标注和词义消歧两个方向展开研究并提出相应的改进方法,主要工作及研究内容如下:(1)研究基于序列标注的语义信息提取方法。传统的利用Bi LSTM的单词级序列标注方法通常忽略了字符中的语义信息,同时这种顺序处理输入序列的方式会限制捕捉句子内非连续单
学位
数字经济时代,数字化转型赋予企业新的发展动能,这能否提升企业的绿色创新能力?基于沪深A股上市公司2007~2021年的数据,实证检验企业数字化转型对绿色创新能力的影响及其作用机制。研究发现,企业数字化转型有助于提升绿色创新能力,经过一系列稳健性和内生性检验后结论依然成立。中介机制检验结果表明,企业数字化转型有利于提高资源配置效率、人力资本配置效率和创新资源配置效率,进而影响绿色创新能力。进一步研究
期刊
本文基于企业技术创新与人力资本结构视角,以2010—2021年制造业A股上市公司年报与财务数据为基础,利用Python分词处理与人工识别构建数字化词典,并以文本分析法构建了制造业数字化程度指标,实证分析了数字化转型对制造业服务化的影响。结果显示:(1)总体上,数字化转型对制造业服务化水平的提升具有显著促进效应,且该效应在采用“宽带中国”战略作为准自然实验和清朝城墙数据作为历史工具变量等一系列内生性
期刊
随着物联网技术的高速发展和相关设备的广泛使用,其安全性也因此受到了重视。其中,物联网设备中的固件安全就是很重要的一个方面。目前,在固件开发过程中存在大量使用开源库和代码复用的问题,导致不同平台上的固件经常受到相同已知漏洞的影响。因此,检测跨平台下的同源漏洞可以有效减少固件漏洞对设备造成的不良影响,这对维护固件安全具有十分重要的意义。现有的漏洞检测方法一般需要对所有的待检测函数进行精确匹配,导致在大
学位
建设工程的稳步发展离不开施工安全管理的保障,在安全管理工作中,对施工现场安全网的完好性进行动态检测是工地安全保障的基础。结合检测结果综合评价施工现场存在的风险,对安全管理工作有积极的推进作用。现有的施工安全网完好性检测主要依赖人工巡查,无法保证实时性,而且人力资源开销较大,还可能存在漏检问题。针对上述问题,本文研究利用深度学习方法实时检测安全网的完好性以及破损分类,并构建基于安全网完好性检测的施工
学位
本文旨在探讨数字化转型对企业经营管理的影响,并提出相应的实施策略和管理模式。通过文献综述和案例分析,对数字化转型的概念、特点以及对企业经营管理的影响进行了深入探讨,并分析了数字化转型的实践案例,总结了数字化转型的成功要素和经验。同时结合实践经验,提出了数字化转型的实施策略和管理模式。研究表明,数字化转型对企业经营管理产生了深刻影响,可以提高企业的生产效率和市场竞争力,但也带来了一系列挑战。
期刊
相比于其他传统人工神经网络的计算单元,通过对生物大脑中的神经系统信息进行模拟,脉冲神经网络所模拟的神经元在结构与其工作机制等各个方面更加具有仿生性,被誉为“第三代人工神经网络”。自脉冲神经网络理论首次提出以来,对其合理实现的研究和实践成为了一个热门课题,脉冲神经网络模型的实现方案主要分为软件模拟仿真和硬件电路实现两种思路,软件模拟具有易于开发、灵活性高的优点,但是脉冲神经元更加复杂,在模拟大规模网
学位