基于深度学习和注意力机制的文本分类方法研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:luckylzh_luo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机信息技术、移动互联网的快速发展,每天都会产生大量的文本数据。面对海量数据,高效获取有价值的信息变得尤为必要。为满足人们对信息的个性化需求,需使用相应的处理技术对海量文本数据进行加工与处理,而文本分类技术正是这些技术的基石。文本分类是自然语言处理领域的经典主题。传统文本分类方法通常采用浅层机器学习算法,通过人工设计特征选择方法对特征进行提取,此类方法人工成本高、耗时长、训练难,对海量数据的处理加工场景适应性差。基于深度学习的文本分类方法,能从海量文本数据中自动进行特征学习与特征提取,大幅降低人工成本且易于训练,算法领域迁移性得到增强。词向量作为一种特殊的文本表示形式,能够对语义相近的词进行表示,避免传统方法存在的语义鸿沟。在文本分类任务中使用自注意力机制,能够充分学习文本特征,发现重要特征忽略次要特征捕获文本中关键的信息。基于上述特点,本文结合深度学习与自注意力机制,针对不同类型的文本分类任务进行研究,主要研究工作如下:(1)使用词嵌入机制解决传统文本分类模型中数据表示的高维度、语义鸿沟问题。词嵌入将文本数据映射到低维的实数向量中,避免高维度输入导致的维数灾难,使用词嵌入机制训练的词向量同义词具有相似的特征,使得词的向量表示具备一定的基础语义信息,有效避免语义鸿沟。对于不同领域的数据集,采用Word2vec框架自行进行词向量的预训练工作。(2)针对单标签文本分类任务,提出基于自注意力机制的单标签文本分类方法——DSA-CNN模型。DSA-CNN通过卷积神经网络的卷积和池化结构,进一步提取文本中的隐藏语义特征。在输入层和池化层分别融合自注意力机制捕获文本内部结构及依赖关系,对于重要特征词赋予较高的权重,提取特征向量时可有效减少信息冗余和信息丢失,突出关键词的作用。通过在多个数据集上设计实验证明该模型的有效性。(3)针对多标签文本分类任务,提出基于自注意力机制的多标签文本分类方法——SA-GRU模型。SA-GRU结合GRU网络对文本信息进行建模,捕获文本序列中较长的上下文信息,使用自注意力机制对GRU网络的隐层单元输出评分并分配权重。考虑标签间的语义相关性,根据标签语义对句子中的单词评分,最后融合注意力评分与标签语义评分,该机制能够关联标签语义与标签所关注单词,一定程度上缓解“尾标签”导致标签数据分配不均训练困难的问题。通过在“Toxic Comment”数据集上设计实验验证SA-GRU的有效性。
其他文献
目的基于肠道菌群-肠-肝轴探讨维生素D缺乏对肠道菌群以及肠道屏障功能的影响和酒精性肝损伤的炎症发病机理。方法将4周龄C57BL/6Cnc雄鼠随机分为四组,分别为对照组(Ctrl),单
近年来钙钛矿型太阳电池飞速发展,光电转换效率飞快提升,短短六年间已经从9.7%提升到23.3%,成为最有潜力的新型薄膜太阳电池。众多研究者对不同种类的钙钛矿材料进行研究,目前已经开发出多种A/B/X组合的钙钛矿材料,然而这些不同组合的钙钛矿材料导致了其导带能量和价带能量的差异。空穴传输材料作为钙钛矿太阳电池的重要组成部分,其最高占据分子轨道(Highest Occupied Molecular O
对已开采矿床进行三维地质建模,有助于了解矿床深部地质结构和成矿规律,从而指导深部找矿,为攻深找盲开辟第二找矿空间打下基础。云际矿床是相山矿田中开采程度较高的矿床之一,对其开展了大量的地质工作并积累了一定数量的矿床资料,但三维地质建模相关的研究工作则较少。本文在收集云际矿床地质数据的基础上,运用GOCAD等相关软件,对云际矿床进行了三维地质建模研究,取得成果如下:(1)收集了云际矿床相关的地质数据,
研究区卫境岩体位于内蒙古自治区中北部,巴音宝力格隆起西部,中亚造山带中部,主要由下二叠统中酸性火山岩和燕山期花岗岩组成。本文通过对该地区花岗岩地质背景、岩石地球化学、围岩蚀变、铀矿化等特征和铀成矿条件进行了系统研究,在此基础上,建立了其成矿模式,探讨了卫境查干哈达地区铀成矿潜力。对查干哈达地区的岩石样品开展了系统的岩相学、主量微量、稀土元素和微区分析,结果表明,卫境岩体查干哈达地段为典型的碱交代型
林地开垦及随之的土壤侵蚀过程将导致严重的土壤退化,造成土壤养分流失,但是林地开垦和侵蚀对坡面土壤养分时空分布特征的影响及其与坡面特征的关系尚不清楚,限制了对侵蚀驱
结瘤植物是自然界中重要的固氮资源,具有极大的生态价值和应用价值。本研究在广西壮族自治区林业科学研究院实验林取样,采用徒手切片和石蜡切片法,以罗汉松科植物竹柏(Podoca
在在流行的地震动随机合成中,在震源谱、传播途径项之外,还包括一个“场地项”,表达为近地表幅值放大因子的Amp(f)和高频截止滤波器的P(f)的乘积,其实并未考虑通常所说的局部
随着遥感技术的不断发展,遥感影像的空间分辨率得到显著提高,影像中地物目标的清晰和丰富细节给高分辨率遥感影像的场景分类带来了巨大的挑战。高分辨率遥感影像场景分类是遥感图像解译中的重要组成部分,由于影像场景中地物类别的多样性、地物种类可变性大、同一地物类别的多样性,使得传统的影像场景分类方法不能描述复杂场景的高层次语义信息。而近些年深度学习算法的出现为影像高层次内在特征的提取提供了有效的方法。实现高分
大气温室气体浓度上升是全球变暖的主要原因,其中CO2、CH4等是温室效应的主要贡献者,总贡献率达80%以上。相比农田等其他生态系统,森林系统是影响全球温室气体排放量变化的重
图像着色任务的目的是将灰度图像的每个像素转换成合适的色彩像素,以使生成的着色图像具有感知上的意义和视觉吸引力。图像着色可协助视觉理解和对象跟踪等高级任务。在我们的日常生活中,无论是重燃尘封的回忆还是表达艺术创造,着色技术都能够起到关键作用。因此它一直是图像处理和计算机图形学研究领域中的活跃主题。图像着色是一种病态且模棱两可的问题。由于许多颜色共享同一灰度像素值,解决方案空间中存在的多模式性使得图像