面向新闻文本分类的层次数据增强和学习方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tony_m_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域中当前学术界和工业界最受关注的前沿问题之一。通用的文本分类算法极大依赖数量充足且类别均衡的数据集,而在实际任务中面对新闻文本数量有限且类别不均衡的情形,文本分类算法效果不佳,鲁棒性较差。此外,由于新闻具有文本风格跨度大、长文本语义丰富且表达方式多样的特点,针对新闻领域的文本分类已成为重大挑战。基于以上问题,提出了层次数据增强和学习方法框架HDAL,并应用于新闻文本分类任务中。层次数据增强模型实现“文本—特征”双层数据增强。在文本层层次数据增强模型中,将文本抽取算法用于数据增强领域,融合基于统计、图和潜在语义的方法,结合新闻标题信息和信息熵算法改进后,通过设置冗余约束条件采用线性规划方法得到数据增强文本。在特征层层次数据增强模型中采用Mixup方法,通过对文本映射在特征空间中的点进行线性插值构造的方式,生成小样本类点邻域附近的新样本。层次学习方法通过对大样本类和其它小样本类进行层次分隔的方式,保证了每层学习过程中不同类别之间的数量均衡。应用在文本分类算法上时,层次学习方法借助重加权设置比例系数的方式优化了二分类任务下的交叉熵损失函数,降低算法在学习过程中大样本类对其它类造成的混淆和干扰。在NSDC和20News Group两种新闻数据集上,对层次数据增强和学习方法框架HDAL进行了文本分类测试,实验结果表明HDAL框架对文本分类算法的F1提升2%至5%。相较于数据增强算法EDA,HDAL框架对文本分类算法的F1提升程度均超过1%,且耗时更短。
其他文献
光流场记录了运动的物体在成像平面上投影的位移,光流场估计是计算机视觉领域的基础研究内容之一,广泛应用于视频分割、自动驾驶和目标跟踪等任务上。另一方面,南方地区汛期时的防洪任务需对水库附近的支流进行流速测量,基于视频方式是一种多用途低成本的远程实现方式。为提高光流估计算法的环境适应性,从无监督学习角度研究光流估计模型,并将该模型应用于水速测量任务中,研究河水表面水速远程测量方法,论文主要创新性工作如
学位
仓储是物流系统的一个重要组成部分,其出库过程费时费力直接影响仓储运营效率,进而影响物流系统的效率。特别是人到货拣选仓库,需要人工根据订单拣选货物出库,该过程是仓库运营中最耗费人力和时间的环节。而库位分配从源头上影响拣货出库效率,因此设计较优的库位分配方案,对仓储系统有重要意义。库位分配问题自1948年提出以来就受到广泛关注,目前对库位分配问题的研究多考虑拣货距离或货物关联度,但其中多数研究未较精确
学位
氮氧传感器对于汽车尾气后处理系统有着重要意义。第六代氮氧传感器需要测量尾气中氧气和氮氧化物(NOx)的浓度。氮氧传感器的工作过程复杂,有三个测量腔室,工作过程中需要实时调控每个腔室泵电压的大小,确保能够将腔室内的O2全部泵出,同时保证NO2全部分解为NO,但是NO又不能提前分解,最重要的是保证能够对尾气的变化快速做出响应,所以对控制系统提出了较高要求。目前由于对氮氧传感器动静态响应的影响因素研究不
学位
随着电子商务的快速发展,配送中心的订单呈现量大、客户位置分散、品项繁多且及时响应要求高等特点,这都为配送中心的订单拣选和配送服务增加了难度。拣选和配送作业是影响配送中心效率的关键因素,因此优化订单拣选和配送作业对提高配送中心订单履行效率和客户服务水平具有十分重要的意义。然而,目前多数关于订单拣选与配送作业的研究都只针对订单拣选或车辆路径的单个环节进行优化,难以实现整体效益最大化。为了从整体上提高配
学位
高光谱图像是一种同时包含空间与光谱信息的三维数据结构,通过记录不同波段的场景信息,能较为全面地描述物体属性。然而,受成像原理与硬件性能的限制,高光谱图像的空间分辨率通常较低,导致其对地物分类贡献有限。因此,研究如何提高高光谱图像的空间分辨率具有重要意义。论文对高光谱图像超分辨率重建方法进行研究,重点针对重建中存在的光谱信息利用率低以及光谱信息失真等问题,设计相应解决方案。针对传统网络中光谱特征利用
学位
近年来,不断有新的词向量模型被提出,但这些最佳性能的模型却无法在内容偏差检测、分类任务的可解释评估等工作中产生作用,原因是这些词向量不具有可解释性,向量空间不具有参考系的作用。当前的可解释词向量模型大多数基于大规模语料库生成,但大部分人难以获得正规的大规模语料库文件,且实际需求中经常会遇到语料库规模小、数据集少的情况,而现有的可解释词向量构建方法在小语料库上性能不及预期,同时,鲜有构建完全正交的词
学位
电液伺服阀作为液压系统的关键元件,广泛应用于航空航天等国防领域。由阀套和阀芯构成的滑阀副是伺服阀的核心部件,其加工精度要求较高,一般加工误差在1~3微米以内。径向间隙和圆角作为滑阀副的两个主要几何特性,其加工质量直接影响伺服阀的输出特性。对滑阀副径向间隙和圆角进行直接测量难度大,研究一种高效率、低成本的测量方法具有重要意义。本文通过分析径向间隙和圆角对气动流量曲线产生的影响,采用支持向量回归的方法
学位
改革开放以来,我国医疗卫生事业快速发展,医疗服务水平显著提升。然而,人口的老龄化以及公众健康意识的增强,使得居民对医疗服务的需求急剧增长,导致医疗服务供需矛盾日益加剧。提高医疗服务的可达性,是缓解供需矛盾的有效途径,许多学者分别采用路网矢量模型和空间栅格模型研究了医疗服务的可达性。由于路网矢量模型无法评估非路网区域的可达性,而空间栅格模型的计算精度相对较差,于是本文构建了融合路网矢量模型和空间栅格
学位
计算机视觉(Computer Vision,CV)算法已经被广泛地应用于日常生活的许多领域。伴随着物联网技术的快速发展,在嵌入式系统诸如CV算法等多媒体应用需要更高效的处理来满足其实时性要求。由于多媒体数据(如图像和视频)通常格式规整,数据处理逻辑一致且相关性不高,因此适合使用单指令多数据(Single Instruction Multiple Data,SIMD)指令来加速处理。SIMD指令能够
学位
随着计算大量向云端迁移,越来越多的计算工作将在数据中心的服务集群上完成。容器技术契合了以应用为中心的时代的需求,被广泛使用在应用的部署当中。容器技术区别于传统的虚拟机技术,没有虚拟的硬件层,所有容器直接共用宿主机的内核。这种结构给容器带来轻量级、快启动、易迁移等优势,但与此同时,也使得容器不可避免地存在系统资源隔离不彻底的缺陷。所以,提升容器的隔离性一直是业界关注的重点。Linux系统的内核日志属
学位