基于预训练模型和词嵌入的CNN情感分类方法

来源 :锦绣·中旬刊 | 被引量 : 0次 | 上传用户:zangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对one-hot词嵌入技术无法表述相关词之间的语意和关系的问题,提出一种基于预训练模型的词嵌入(GloVe)和CNN神经网络相结合的情感分类方法。首先,读取要分类的语料并加载中文预训练词向量模型;然后使用TensorFlow进行数据预处理,生成训练集和测试集;最后定义两种词嵌入矩阵并构建CNN模型进行对比。实验结果表明,使用预训练模型的词嵌入方法比自定义训练的方式能进行更好的情感分类
  关键词:词嵌入;深度学习;卷积神经网络;情感分类
  中图分类号:TP183:文献标识码:A
  0 引言
  情感分析是从自然语言中识别人的态度的一种人工智能方法,现在有很多人通过社交网络服务、博客、在线评论和社区网站上面发表他们的观点或看法。由于很多用户在网络上表达自己的情感,因此研究人员可以通过分析现实世界中的情感来了解社会舆论。
  1 相关概念
  1.1 卷积神经网络(CNN)
  CNN模型在计算机视觉处理中获得了很大的成功。它由输入层、卷积层、池化层和完全连接层组成。输入层主要输入原始像素值的图像,包括RGB通道。在卷积层中,通过滑动窗口(过滤器)来捕获像素的局部特征。在池化层中,局部小平移具有不变性的特点,并通过子抽样的方法减小了参数维数。在全连接层中,把高维度图像进行平展后进行分类。
  1.2 词嵌入技术(Word-Embedding)
  为了数字化输入的单词,我们可以使用k个编码向量(由若干个0和一个1组成)中的1(one-hot)来表示一个单词,这种方法非常简单,但无法表达单词之间的关系。为了能表达单词之间的关系,我们通常使用词嵌入方法,这是一种降维技术。词嵌入方法就是把每个单词矢量化表示。它由密集且维数较低的k维向量表示。研究表明,语义相近的词向量在向量空间中距离很近,反之语义差距大的词向量在向量空间距离较远。目前,许多关于自然语言处理(NLP)的研究都使用预训练词向量。
  使用预训练的词嵌入,在数据集较小的情况下,难以学习到足够好的embedding层,选择一些权威的官方词嵌入数据库(比如GloVe)能够有效解决数据集的问题。GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。
  1.3 情感分类
  情绪分类的目的是识别给定句子(或文档)的情绪极性(积极或消极)。传统分类方法大致可以分为基于词典的分类方法和基于深度学习的分类方法。基于词典的方法通过人工的方法来提取语言特征。例如,通过在词典中标注每个单词的情感极性就被当作语言特征。另一方面,深度学习方法具有自动地从原始数据中学习表示的能力。基于深度学习的方法自动从原始文本输入中提取特征,并使用它们对情绪极性进行分类。因此,基于深度学习的方法在情绪分类任务中越来越受到研究人员的欢迎。
  2 数据预处理(定义词嵌入矩阵)
  2.1 数据集介绍
  本文使用的是IMDB电影评论数据集,该数据集是用于情感分析的国际标准数据集之一。数据集收集了大约50000条的评论,其中训练集25000条,测试集25000条。对于预训练词嵌入,本文使用的是GloVe。
  2.2 读取语料
  打开语料文件,把原始语料划分为训练数据和测试数据,把文本信息读取到texts列表中,标签信息读取到labels中,其中文本信息需要使用预处理词嵌入技术进行处理,标签信息本文使用one-hot进行表示。
  2.3 加载预训练词向量模型
  本文采用的词向量是一个稠密向量,可以理解为将文本的语义抽象信息嵌入到了一个具体的多维空间中,词之间语义关系可以用向量空间中的范数计算来表示。
  下载GlOve,进行解压之后的中文预训练词向量模型的文件格式是文本文件,首行只有两个空格隔开的数字:词的个数和词向量的维度,从第二行开始格式为:词 数字1 数字2 …… 数字300,形式如下:
  364180 300  [首行]
  china 0.003146 0.582671 0.049029 -0.312803 0.522986 0.026432 -0.097115 0.194231 -0.362708
  以上364180表示的是词的个数,300表示的词的维度,即一个词用300维的数字进行表示,”中国”使用了300维的向量进行表示。
  2.4 使用tf.keras对语料进行处理
  tf.keras是tensorflow中集成的keras处理模块,通过tf.keras可以直接调用keras中的各种功能。本文将使用tf.keras中的Tokenizer对语料文本进行处理,每个向量等于每个文本的长度,这个长度在处理的时候由变量MAX_SEQUENCE_LEN(最大句子长度)做了限制,其数值并不表示计数,而是对应于字典tokenizer.word_index中的单词索引值,这个字典是在调用Tokenizer時产生。
  长度超过MAX_SEQUENCE_LEN的文本序列会被截断,长度小于这个值的文本序列则需要补零来达到这个长度,可以使用tf.keras中的pad_sequence()就是用零来填充向量序列。例如:对[1,2,3,4,5,6,7,8],[6,7,8,9],用maxlen=6进行长度的截断,结果如下:   pad_sequences([[1,2,3,4,5,6,7,8],[6,7,8,9]], maxlen=10)
  array([[1, 2, 3, 4, 5,6], [0,0, 6, 7, 8, 9]], dtype=int32)
  2.5 定义词嵌入矩阵
  下面创建一个词嵌入矩阵,用来作为上述文本集合词典(按照使用的频率高低排序后取序号在前10000的词)的词嵌入矩阵,矩阵维度是(10000, 300)。
  矩阵的每一行i代表词典中第i个词的词向量。本文中建立词嵌入矩阵是预训练词向量的一个子集。语料中很可能有的词不在预训练词向量中,这样的词在这个词向量矩阵中对应的向量元素都设为零。在本例中,10000个词有95.65%在预训练词向量中。
  词嵌入矩阵的创建本文调用tf.keras.layers.Embedding对其进行向量化处理,处理的结果是将输入序列中的整数索引转换成一个稠密的向量,输入是一个2D张量,形状为(batch_size, sequence_length),输出是3D张量,形状为(batch_size, sequence_length, output_dim)。嵌入层的输入数据sequence向量的整数元素对应词的编码,前面看到这个获取序列编码的步骤使用了Keras的Tokenizer API来实现,如果不使用预训练词向量模型,嵌入层是用随机权重进行初始化,在训练中将学习到训练集中的所有词的权重,也就是词向量。但使用预训练的词嵌入的自己训练,在数据集较小的情况下,难以学习到足够好的embedding层,因此本文采用官方提供的GlOve来生成词向量矩阵。要采用官方提供的GlOve进行词嵌入向量矩阵的生成,可以通过对tf.keras.layers.Embedding两个输入参数weights=[embedding_matrix]和trainable=False进行设置,第一参数设置该层的嵌入矩阵为上面我们定义好的词嵌入矩阵,即不使用随机初始化的权重,后者设置为本层参数不可训练,即不会随着后面模型的训练而更改。
  3 建立神经网络模型进行对比验证
  上面提到,词向量矩阵可以自己进行训练,也可以不训练而调用官方提供的训练结果直接使用。为了对比这两种方式的差异,本文首先进行自己训练词向量,进行模型训练得出采用这种词向量方式的训练结果,然后使用官方提供的词向量数据,再重新进行模型训练。以下是两种方式的训练结果,如图1所示。
  上图中,左边的图是自己训练的词向量矩阵,右边的图是采用官方提供的GlOve,从训练的accuracy来看,左边的达到85%左右的准确率,而右边的达到95%以上的准确率,结果表明,预训练模型的加载可以大幅提高模型训练的效率,模型的验证准确度也提升的比较快。
  4 总结
  本文先介绍情感分析、卷积神经网络和词嵌入技术的相关概念,提出一种基于预训练模型的词嵌入技术的方案,并从数据预处理方面详细介绍该模型的建立和处理过程,然后通过自训练和采用官方提供的词嵌入矩阵进行实验并进行对比分析,结果表明,在语料数据不足的情况下,采用官方提供预训练模型的加载比自定义的效果更好,不但可以大幅提高模型训练的效率,而且模型的验证准确度也提升的比较快。
  参考文献
  [1] 王宇石等.一种基于卷积神经网络的违禁品探测系统及部署方法[J],科技创新与应用,2020(7).
  [2] 来学伟.TensorFlow读取数据在简单图像识别中的应用[J],现代信息科技,2019(6).
  [3] 王晓华. TensorFlow 2.0卷积神经网络实战 [M]. 清华大学出版社出版社,2020
  [4] 閆涛. 深度学习算法实践 [M]. 电子工业出版社出版社,2020.
  作者简介:翟高粤, 男(1975.11)  广西钦州 ,汉 ,硕士,副教授,研究方向:软件理论,人工智能。
其他文献
摘要:本文主要对建筑工程的安全监理工作进行整体上的梳理,对建筑工程安全监理的工作方法进行研究与分析,并对相关工作制度进行总结。从安全监理工作的具体实践可以得出,对于安全监理工作来讲,按照一定程序与规范完成工作是最为重要的,同时也是基本要求。从实践中也可以看出安全监理文件对于整项工作的重要影响,并且文件的内容要具有体系,使安全监理工作得到更好的展现。  关键词:特点;文件;危险源  近些年来,我国的
期刊
摘要:继电保护整定技术是智能电网供配电系统中的关键技术,对保证智能电网中各用电设备运行的安全性、稳定性定有重要作用。基于此,本文结合理论实践,先分析了继电保护整定技术的定义,接着论述了继电保护整定计算方法,最后探讨了继电保护整定技术的具体应用,希望对提升智能用电效率和用电安全性有一定参考和帮助。  关键词:智能电网;供配电系统;继电保护;整定技术  引言:在我国社会经济飞速发展的背景下,对智能电网
期刊
摘要:海南黎苗族建筑是海南的传统地域建筑,传统建筑是地域文化的载体,是该少数民族在过去的生存生产的实践中,为适应自然、改造自然而留下的烙印,也是人文环境与自然环境融合的文化遗存。黎苗族建筑记载着黎族的历史文化,也保存着传统黎苗族文化的精髓,体现了黎苗族人民拥有的生存智慧,也是海南地区社会、经济和文化可持续性发展的重要载体。  关键词:海南;黎族;苗族;建筑设计  一、海南黎苗族传统建筑发展  (一
期刊
摘要:随着我国建筑业的迅速发展,绿色环保理念已深入人心,推进绿色建筑建设势在必行。绿色施工技术是时代发展的重要产物。绿色施工管理在建筑工程中的有效应用,可以有效地促进建筑业的可持续发展,满足当前的需要。节水技术、节电技术和环保技术是建筑工程绿色施工技术应用的关键领域,值得相关技术人员加大研究力度。本文分析了建筑工程管理的创新实践。对绿色施工管理的作用和措施进行了分析和探讨。  关键词:绿色施工;管
期刊
摘要:本报告设计的八路智力竞赛抢答器电路主要采由4511系列常用集成电路组成,涉及到触发器、编码器、译码器、555定时器。该抢答器具有基本的抢答功能,通过共阴极数码管显示选手的号码。当一轮抢答开始后,首先抢答的人由触发器保持状态并阻止其他任何选手输入状态,此次设计的抢答器在选手输入信号后先经过D触发器,再经过优先编码器编码,所有选手没有优先级之分,真正做到比赛的公平公正性。编码后的信号经过加法器后
期刊
摘要:本文以广西民族博物馆近些年开展的馆藏纺织品保护修复文物为研究对象,对比我国传统刺绣方法,从工具、步骤、针法、目的等方面阐述了少数民族服饰修复技法与传统刺绣工艺不同之处及借鉴与应用。  刺绣,民间俗称的“绣花”。翻阅史书,刺绣称之为“黹”、或“针黹”。在《周礼·考工记》中有记载:“五彩备、谓之绣”。刺绣,是通过手运用针和各种丝线、棉线或绒线在各类织物上穿刺拉线,并按照一定的规律形成或纹样,或图
期刊
摘要:布宁是俄罗斯历史上最早得到诺贝尔文学奖的作家,这位作家的文学作品中有着非常现实的批判味道,而且也成为了批判现实主义最后一位作家。在作品方面来讲,文章中展示了世纪文学非常辉煌的时期,同时也为文学事业发展开创了全新道路。作品《乡村》中没有非常强烈的现实主义味道,同时也没有在现代主义角度脱离当下生活,合理的将生活和对现实主义的批判融合在了一起。  关键词:现实主义;布宁作品;小说《乡村》  前言:
期刊
摘要:市政桥梁工程的施工质量影响着整体的桥梁工程的运行和市民的安全通行,在实际的施工管理过程中,应当对施工技术进行严格的规范,并对施工流程的规范性进行严格的要求,但实际的市政道路桥梁施工过程中,往往会存在一定的路基沉降的问题,在这些路段的施工中,需要重视的施工技术要求更多,基于对工程负责,打造优质工程的愿景,在实际的施工过程中进行该路段的施工研究是非常有必要的,本文将重点对此进行分析研究,并为广大
期刊
摘要:随着社会的进步, 城市建设突飞猛进,建筑及建筑服务行业经历三个大的阶段:大规模新建阶段→新建与维修改造并重阶段→旧建筑改造维修加固阶段。最近几年各地出台对“低、小、散”产能的腾退政策及要求,为了节省新建厂房成本,缩短施工时间,鉴于原建筑的部分结构部件部分能够使用或加固后还能使用,因此确定采取对老建筑部分结构,如地基、框架柱、梁板、钢屋面等部位进行加大加固的方案进行厂房建设,因此建筑结构的加固
期刊
摘要:非物质文化遗产包括口头传统和表述、表演艺术、社会风俗、礼仪、节庆、传统手工艺技能等多项内容。非物质文化遗产归属于民族,具有非物质的特征和文化的性质,要坚持保护和传承的态度。在数字化的背景下,应该转变传统的非物质文化遗产保护方式,加大对非物质文化遗产的利用,本文就此進行了相关的阐述和分析。  关键词:数字化;非物质文化遗产;保护与利用  现如今,我国已经进入了信息时代,各行各业都呈现出数字化、
期刊