深度学习方法在文本自动分类中的应用艺术

来源 :银幕内外 | 被引量 : 0次 | 上传用户:oishiocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文本自动分类作为自然语言处理的基本任务之一,具有重要的应用价值。近年来,深度学习方法在这一领域取得了较大进展,各类深度学习模型或算法不断刷新着文本分类任务的性能记录。本文讨论了深度学习方法的理论基础和关键技术,对主流深度学习文本分类方法进行了分类和总结,探讨了这些方法取得成功的理论依据。本文还设计了对比实验,比较了Text-CNN等6种深度学习算法在复旦新闻数据集和THUCNews数据集上的文本分类性能,验证了这些算法的有效性,实验结果表明,在文本分类任务中引入预训练模型是提高分类准确性的关键因素。
  关键词:深度学习;应用艺术
  中图分类号:G210.7
  文献标识码:A
  文章编号:190518118
  1引言
  文本自动分类一般指使用计算机对输入文本按照一定的类别进行自动化归类,被广泛应用于文本审核、广告过滤、情感分析和舆情监控等相关领域。文本分类的相关研究最早可以追溯到上世纪50年代,典型应用大多为基于规则的专家系统。近二十年来,随着互联网文本数量的指数级增长和计算机硬件能力的快速提高,基于机器学习理论的自动分类方法逐渐取代了基于人工规则的传统方法。而深度学习作为机器学习的一个重要分支也在这一领域取得了突破,其优势在于利用CNN/RNN等网络结构自动获取数据特征,避免了复杂昂贵的人工特征工程,实现了端到端的解决方案。本文介绍了近几年深度学习方法在文本分类领域取得的进展,包括词嵌入、深度学习网络模型、注意力机制以及迁移学习等等,并通过实验比较了几种深度学习分类方法的性能。
  2深度学习文本分类关键技术
  深度学习一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法。自2012年AlexNet等突破性研究成果发布以来,深度学习方法在图像和语音处理领域取得了巨大成功,同时也引起了自然语言处理领域研究者的广泛关注。但自然语言处理与图像和语音处理有较大差异,主要体现在如下几个方面:
  1、语言的高度复杂性,包括词语的抽象性和歧义性,不完全规则性和递归性等等。
  2、难以获得高质量的训练数据。比如缺乏类似计算机视觉处理领域中ImageNet之类被广泛认可和使用的大规模数据集。
  尽管存在着这些困难,深度学习方法的相关研究依然取得了很大进展,在命名实体识别、文本分类、文本摘要等多项任务中超越了传统方法,有效提高了相关模型或系统的性能。下面概述推动深度学习在文本分类领域应用的关键理论或技术。
  2.1词嵌入(Word Embedding)
  词嵌入[1]是一种将文本中的单词映射为词向量的数据表示方式,是深度学习自然语言处理的奠基性工作。因为数据表示是机器学习的核心问题,要处理文本分类、机器翻译等高级任务,必须首先将文本表示成为深度网络能够处理的数据类型。在WordEmbedding出现之前,最直观也是最常用的词表示方法是所谓One-hot编码,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。比如下面的例子:
  “土豆”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0…]
  “洋芋”表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0…]
  然而这样的表示方式仅仅将词语符号化,丢失了语义信息,比如从上述“土豆”和“洋芋”的编码中完全无法看出相关性,而普通人经过大量的阅读根据上下文应该能够分辨出二者是同义词。
  为了解决这些问题,研究者提出了通过神经网络技术对文本上下文,以及上下文与目标词之间的关系进行建模。这里举例说明,假设有四个词语:“男孩”、“男人”、“女孩”,“女人”,那么可以将这四个词映射(Embed)为“性别”和“年龄”两个词,再假设性别和年龄都可以取两个值O或l,即年轻+男性(编码为oo)为男孩,成年+男性为男人(编码为IO),如图1所示。注意这一映射过程根据的是人工提供的先验知识(如:年轻的男性为男孩),而在具体的机器学习模型中则是根据神经网络的训练过程去发现这些知识,或者说是词语之间蕴含的关系。
  从上述的例子可以看出,Word Embedding通过将原始文本映射为词向量,不仅保留了文本上下文和词语之间的联系等信息,还起到了数据降维的作用,对于后续的神经网络处理有重大意义。
  2.2基本网络结构
  词嵌入等特征提取方式解决了文本数据的表示问题,可以作为深度学习网络的输入,而最终完成文本分类任务还需要构建神经网络。神经网络按其基本结构可以分为处理具有空间性分布数据的卷积神经网络(CNN,Convolutional Neural Network)和处理具有时间性分布数据的递归神经网络( RNN,RecursiveNeural Network)。下面介绍这两类网络结构。
  由于文本天然具有顺序性和时间分布特征,早期深度学习文本分类模型基本采用递归神经网络RNN及其改进版本如LSTM(Long Short-Term Memory,长短期记忆网络)或GRU GatedRecurrent Unit (LSTM的一种变体)。RNN专门用于处理时序数据,该网络中的每一层不仅输出到下一层,同时还输出一个隐状态,由当前层在处理下一个输入时使用。如果在文本中某个词语根据上下文内容不同而有不同的含义,则RNN能较好的解决这类问题。LSTM相对于RNN的主要改进有两个方面。一方面LSTM引入了一个新的内部状态(internal state),另一方面,引入门机制(gating mechanism)来控制信息传递的路径。
  除了RNN,另一类卷积神经网络CNN具有计算性能高、分类效果好等特点,也在文本分类领域得到了广泛应用。CNN的基本结构包括两种特殊的神经元层,即卷积层和池化层。在卷积层中,每个神经元的输入与前一层的局部相连,并提取该局部的特征;其二是池化层,用来求局部敏感性与二次特征提取的计算层。包含了上述卷积层和池化层,演示了CNN用于文本分类的过程。首先将句子映射到嵌入向量,并以矩阵的形式输入到模型中。然后使用不同大小的卷积核对所有输入词做卷积操作。最后使用最大池化层处理得到的特征映射,将提取到的特征进行汇总,最后由Softmax分类器得到最终的文本分类结果。
  3结果分析
  根据上述实验结果可以得出一些重要结论。一方面所有深度学习方法都比较有效,大部分方法都取得了超过了基线方法的分类性能。另一方面基于预训练模型ELMo或Bert的方法取得了最好的成绩,尤其是Bert方法,这得益于Bert等预训练模型采用了大规模的训练数据集,并引入了双向Transformer等先进网络结构。总之,引入预训练模型确实能显著提高文本分类的准确性,将成为深度学习文本分类方法或模型的标准配置。
  4总结
  本文對近年来深度学习方法在文本分类方面的进展进行了综述,重点讨论了词嵌入、深度网络结构、预训练模型等相关理论和技术,并通过实验对比了多种深度学习方法的文本分类性能,为今后的研究工作提供了指引。
  参考文献
  1.Mikolov T , Chen K , Corrado G , et al. Efficient Estimation ofWord Representations in Vector Space [J]. Computer Science, 201 3.
  2.Peters M E, Neumann M. Iyyer M. et al. Deep contextualizedword representations [J]. 2018.
其他文献
在刚刚结束的第91届奥斯卡颁奖典礼上,《绿皮书》获得了最佳影片、最佳原创剧本和最佳男配角的三个奖项。今天,这部影片已在全国上映了。诚挚地推荐给大家,真的很好看。你不用管美国媒体的评价,你就从中国观众的角度看,就可以了。  在超级英雄3D电影满天飞的当下,这样本身就不贵的2D电影,真的是良心之作。  好电影一年看不了几部,去影院观看吧!跟我在我的破笔记本电脑上看的感觉完全不一样。  关于这部电影的影
期刊
摘要:本文阐述了中班幼儿游戏活动中的教师助推游戏的必要性,我们提出了要随幼儿游戏过程,教师进行适当的助推;教师需紧跟游戏过程,适宜助推;应用赞赏激励式助推促进幼儿游玩的积极性;助推方式的应用要巧妙,应精准地实施助推式教育等中班幼儿项目化游戏活动开展中的教师助推策略。  关键词:中班幼儿;项目化游戏活动;助推策略  中图分类号:G210.7 文献标识码:A 文章编号:1906868915  一、前言
期刊
摘要:教育公平實质上是人们对教育领域中人与人之间教育利益分配关系的评价,表现为一种在社会各阶层和社会成员之间按比例平等分配教育利益的理想和制度。与教育公平相对的教育不公平有三种表现形式:教育机会、教育过程及教育结果的不平等,教育公平是与个体息息相关的价值追求,正是对教育公平的追求促进了对教育不公平的研究。二十年前开始的高校扩招,曾经有种种的议论,但是当前的发展局面,用强有力的事实证明,高校扩招是实
期刊
关键词:政务微博;问题;不足  中图分类号:G210.7  文献标识码:A  文章编号:190519828  近日,国务院办公厅印发《政府网站与政务新媒体检查指标》和《政府网站与政务新媒体监管工作年度考核指标》对政府网站和政务新媒体的运行和考核制定了严格标准。政务新媒体在信息公开、网络问政、舆情回应方面起到了不可忽略的作用,展现出政府部门形象和政府公信力。尤其是在政务新媒体中,政务微博是政府宣传阵
期刊
摘要:冼星海特别是他的《黄河大合唱》,在抗日战争时期大大激发和鼓舞了中国人民抗敌御辱的士气和斗志,为夺取抗日战争的胜利,发挥了重要的作用。他的音乐至今仍有着旺盛的生命力,对振奋民族精神,具有积极的意义。  关键词:冼星海;《黄河大合唱》的意义;人民音乐家  中图分类号:G210.7  文献标识码:A  文章编号:190617105  1 冼星海的生平  1.1 从渔村走进音乐的殿堂  冼星海祖籍广
期刊
摘要:本文主要以《词品》为例来探究杨慎的词体起源论与词体创作论。杨慎认为词体起源于六朝,创作时应坚持“主情”说。本文主要用“知人论世”与“文本分析”两种研究方法进行论文写作。  关键词:杨慎;词品;起源论;创作论  中图分类号:G210.7  文献标识码:A  文章编号:190517105  一、词体起源论——源于六朝  文体源流论是从历史纵向上对文体进行源头的寻找和脉络的梳理。为什么他会认为词体
期刊
摘要:本文阐述了行政沟通在管理中的重要意义,结合医院行政管理中行政沟通存在的问题分析,我们提出了医院管理部门要丰富信息传输的方式和渠道,职能科室工作人员要培养沟通技巧,应用行政沟通促进行政管理制度透明化等相关措施。  关键词:行政沟通;医院行政管理:作用;应用  中图分类号:G210.7  文献标识码:A  文章编号:190621958  一、引言  随着我国对医疗服务的投入越来越多,医院建设的速
期刊
摘要:本文分析了新时期工会工作创新的必然性,其中有工会工作创新是践行十八大精神的必然要求,实现工会组织自身建设的必然要求和建设的必然要求三个方面,还有工会工作的主要内容与现状并提出了新时期工会工作的创新与发展,主要从坚持党的领导,加强职代会建设,大力开展“送温暖”活动,实现党工共建,企业要积极主动地支持工会履行职责、开展工作,以改革创新精神加强工会自身建设与进一步加强和改进党对工会工作的领导七个方
期刊
摘要:好莱坞是现代世界最发达的电影基地,好莱坞电影当中已经运用了很多中国元素。这种运用在文化意义上表现得很复杂,好莱坞运用中国元素的主要目的就是谋求商业方面的利益,这是好莱坞当中的商业观念所决定的,好莱坞电影的生产机制也是我们应该学习的地方。而且,好莱坞对中国元素的运用还是出于文化渗透的目的,也标志着世界文化的发展进入了全球化时代,由于世界中的各种文化因素都不可能是独立存在的,所以跨文化交流就成为
期刊
摘要:本文分析了访谈类节目中主持人提问艺术的作用,并提出了电视主持人访谈节目的提问技巧锤炼对策,在日常工作中,不仅要积极学习和培养提问能力,不断总结提问经验,确保每个问题都有明确的目的和独特的技巧,并与被访谈者建立了良好的访谈关系,以挖掘最有价值的访谈内容。  关键词:广播主持人;访谈节目;提问技巧;研究  中图分类号:G210.7 文献标识码:A 文章编号:190626103  一、引言  访谈
期刊