面向不平衡文本分类方法研究及应用

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:hanyunba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段信息数据每天都在以指数级增长,而在海量的信息数据中,文本数据是最为常见的一种。在实际的生活中大部分文本数据集分布都是不平衡的,而原始的文本分类算法大都在平衡的数据集上进行训练,当在实际的数据不平衡的情况下进行应用时,会对模型的分类效果产生较大影响,因此,如何高效的对不平衡文本数据进行分类是一个具有现实意义且急需解决的问题。本文针对不平衡文本数据集(二分类)存在的问题,从类别损失、特征提取两个方向着手进行研究,主要内容如下:(1)为提高模型对正负样本的区分能力以及突出不同样本的错分代价损失,本文提出改进的AUC优化损失函数SMAUC(soft-softmax AUC),对AUC进行直接优化。将其以辅助损失的形式与焦点损失函数进行结合,构成本文不平衡文本分类模型最终的的损失函数,用以提高模型对少数样本错分的敏感程度。(2)综合考虑传统的采样方法的局限性,本文利用数据增强的方法进行过采样,基于词向量相似度的对少数样本进行关键信息的替换以及回译等操作,丰富少数样本的特征并降低数据集的不平衡率,增强模型对少数样本的识别能力和模型的泛化能力。(3)针对当前文本分类模型对不平衡文本特征提取能力不足的问题,本文基于高低阶特征融合的思想,结合代价敏感与数据增强的方法,提出基于多重注意力的层级并行MA-CNN-Au BiLSTM算法。该算法利用注意力机制进行词向量增强,使模型在后续特征提取更多关注那些对词向量的质量产生影响的特征;利用多通道卷积和BiLSTM网络分别提取局部结构特征和上下文语义特征进行并行融合,并将融合后的特征利用注意力机制进行进一步加权选择,充分学习不平衡文本数据集的特征信息,最后与上文提出的损失函数融合,提高模型整体的分类能力。(4)将不平衡文本分类损失函数以及本文构建的不平衡文本分类模型,在食品安全评论数据集上进行应用并与常用算法模型进行对比,实验结果表明本文提出的算法在各项评价指标中相较于对比模型均有一定程度提升。并且本文对IMDB数据集进行不平衡采样后进行对照实验,结果表明本文在该数据集上相较于其他对比模型效果更优。
其他文献
癌症作为一种威胁人类生命和健康的重大疾病之一,其发病率和死亡率呈现逐年上升的趋势。对癌症患者的生存期进行精准的预测能够帮助医生制定有效的个性化诊疗方案,也可以帮助患者更好的了解自身情况。随着高通量技术的发展,基因组数据被证实了在癌症发生发展过程中发挥了至关重要的作用,使用基因表达数据对癌症患者的生存期进行预测能够帮助医生做出更好的治疗方案并给出临床解释。现如今,生存预测模型已被广泛应用于研究患者协
学位
随着太阳能资源利用力度的加大,全球太阳能光伏系统的总量迅猛增加。对光伏系统进行检测计数可以更有效监管和维护光伏板,实现用电区域的合理规划。同时,统计光伏电站已安装光伏组件的数目,可以方便企业进行资产盘点、项目收购、内部考核等,有利于合理规划光伏板组件安装计划,具有实际应用价值。目前,专门针对光伏板快速检测和计数的研究尚不充分,仍然以人工对航拍图像处理为主,耗时耗力,图像目标检测技术可以很好缓解这一
学位
随着信息技术的迅速发展,如何有效地对海量数据进行分类是数据挖掘领域面临的挑战。集成学习是解决该问题的一种重要方法,其通过组合多个基分类器显著提升了模型的预测效果,被广泛应用于网络数据分析、生物信息识别等领域。然而,海量数据中往往包含着大量冗余特征,影响基分类器的性能。另外,集成模型的基分类器数量会对模型的预测性能造成较大的影响。针对上述问题,本文提出了一种新的多粒度进化森林(Multi-Grain
学位
多摄像头下行人运动轨迹追踪是指通过不同摄像头拍摄的场景中行人的穿着、姿势、携带物等外观和身体特征来识别目标行人,从而确定在多个非重叠摄像头视域内的目标行人出现的先后顺序和位置。目前该项技术已经发展成为机器视觉、人工智能领域的重要研究方向之一,同时被逐渐应用于公共安防,成为视频案件分析的重要手段。目前在多摄像头下行人运动轨迹追踪领域,所采用的研究方法已由传统的机器学习方法转向深度学习方法。同时在行人
学位
近年来,基于可持续资源的能源生产变得越来越重要,太阳能作为一种清洁可再生能源,其开发和应用前景广阔,备受各国青睐。在过去的几十年中,光伏组件产量一直稳定增长,并且未来有望成为主流能源利用形式,有着不可估量的发展潜力。随着机器视觉技术在工业检测领域的广泛应用,无人机航拍巡检成为发展的趋势,利用图像处理技术对航拍光伏阵列影像进行处理与分析是航拍巡检的新要求,主要包括图像拼接、缺陷检测、光伏用地检测和太
学位
生物医学领域的研究发展日益迅速,领域文献的数量呈指数增长,如何自动有效地从这些文献中提取有价值的信息变得越来越紧迫。生物医学文本关系抽取主要是对标记的医学实体之间潜在语义关系的展现,例如药物与疾病之间治疗关系、基因之间的突变关系、化学物质和疾病之间诱导关系等。目前,关系抽取任务大多采用深度学习的方法,该方法的主要优点是不仅减少了大量的人工参与而且还能自动捕获特征。然而现有的模型仍存在以下几个问题。
学位
伴随着网络和移动智能终端的不断发展更新,用户信息呈现出一种爆炸性的增长,通过对用户信息进行数据挖掘和数据分析,可以更好的为用户提供服务,但这些数据中涉及大量敏感的个人信息,所以社交网络图在发布之前需要进行严格的隐私保护。差分隐私保护模型不依赖于攻击者所具有的相关背景知识且有严格的数学理论基础,因此在社交网络图的发布中得到了广泛的应用。目前社交网络图的发布算法大多应用了聚类的方法,但由于聚类时没有考
学位
随着用户需求增长,软件开发愈加复杂,设计模式被广泛应用于解决复杂的软件逻辑与结构问题。但软件开发和维护过程中,设计模式作为软件开发中优秀经验的总结,其信息却很难被开发人员直观地提取应用,因此从源码中识别出设计模式的应用实例的方法颇具研究意义。设计模式识别能有效帮助维护人员理解、维护及重构软件程序,也是能实现设计模式可复用性的重要前提。通过总结文献发现,设计模式识别仍有问题有待研究:(1)识别设计模
学位
随着国民经济和对外贸易的快速发展,国际、国内航运事业需求旺盛,中国的航运业已经成为全球市场最具活力、增长力的市场之一。随着航运事业的发展,来往船舶数逐渐增多,航道拥堵问题日益严重,海上交通安全和船舶航行时间长等问题也随之出现。虽然VTS在很多港口已经投入使用并积累了海量的雷达数据,但目前对这些数据的使用却不是很充分,大量的历史数据被遗弃在数据库中,还消耗着存储资源。目前各个港口的VTS基站都只是针
学位
优化问题是一个热门的研究领域。很多现实中复杂的工程和科学问题都可以被抽象为大规模全局优化问题。大规模全局优化问题具有决策变量维度高(一般超过100维)、搜索空间过于广泛以及大量的局部最优性等特点,因此从大量的解决方案中寻找最佳解决方案是研究的重点。进化算法是目前公认的求解大规模全局优化问题的卓有成效的方法。粒子群算法作为一种基于种群协作的全局寻优进化算法,以其实现简单、参数少以及收敛性能好等优点被
学位