基于情感词向量和可解释性对抗训练的文本情感分类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:cjp023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,互联网快速发展带动了电子商务、社交媒体的兴起,使得社交方式以及商务模式发生了巨大的改变。用户在使用网络作为媒介进行社会交往、商务贸易的同时也产生了大量的网络文本数据,其中包含了公众对于热点事件的态度、用户对于商品的满意程度等信息,对它们进行情感倾向分析,可以帮助商家快速获取用户需求,赢得核心竞争力,同时对舆情监控也有十分重要的意义。早期文本情感分析研究主要使用传统机器学习和情感词典技术,机器学习依赖于特征工程,需要耗费巨大的人工成本进行特征提取,情感词典的构建也是主要使用人工标注的方法,该技术十分依赖于构建词典的质量。深度学习技术使用多层神经网络作为特征提取器,不但避免了复杂的人工特征提取,而且模型的性能提升十分明显,目前已被广泛应用于文本情感分析领域。然而,深度神经网络模型易于受到对抗样本的攻击,对输入样本进行细微的扰动就能够影响模型的输出,模型的鲁棒性需要进行进一步增强。对抗训练是一种抵御对抗攻击的有效手段,在词嵌入层构造对抗样本输入到深度学习模型中,并在训练过程中不断优化参数从而提高模型的鲁棒性。另外,文本词表示方法主要包括离散表示和分布式表示。词的离散表示使用高度稀疏的向量对词进行表征,构造方法简单,词与词之间相互独立,忽略了词语之间的语义关联,容易造成维度灾难。词的分布式表示既包含了词的上下文语义关系,又解决了离散表示中的高维度和稀疏问题。但在情感分类任务中,使用分布式表示对词进行表征,上下文相近但是情感倾向相反的词生成的词向量也相似,为避免该种情况的发生,可以通过情感词典获取词的情感信息,然后将其融入到词的分布式表示中来更好的实现词表征。综合以上问题,本文将情感词典与深度学习技术相结合,使用分布式词表示和可解释性对抗训练构建文本情感分类模型。首先,提出了一种基于余弦相似度的加权情感词向量算法。采用word2vec模型构建词的语义分量,通过余弦相似度获取目标词的近似词,使用情感词典得到相近词的情感强度,对于与目标词情感倾向相反的相近词,用情感强度平均值代替其情感强度,得到的情感强度向量作为目标词的情感分量,将其与语义分量进行拼接得到情感词向量,使用目标词的情感强度对情感词向量进行加权得到目标词的加权情感词向量。其次,针对深度学习模型易受对抗攻击和过拟合问题,采用可解释性对抗训练的方法训练模型,在对抗样本的生成过程中限定扰动的方向,使得生成的对抗样本可以被还原成词库中具体的某个词,具备可解释性。通过在词嵌入层对原始样本添加对抗扰动生成可解释性对抗样本,扰动方向限定为原始样本到词库中其他词的方向,将原始样本和对抗样本同时作为下一个网络层的输入,在训练过程中通过梯度反向传播不断修正参数从而提高模型的鲁棒性。最后,为了更全面的提取出句子中隐含的数据特征,使用BiLSTM模型作为句子特征提取器,可以同时对句子进行前向和后向编码,将前后向编码向量进行拼接作为整个句子的特征表示向量,并输入到全连接层中然后计算得到情感类别。分别在Yelp和Amazon Fine Food Reviews两个公开数据集上进行了实验,发现与基准模型BiLSTM相比,本论文提出的文本情感分类模型在Yelp数据集上准确率提高了0.73%,在Amazon Fine Food Reviews数据集上准确率提高了 1.25%,验证了该模型的有效性。
其他文献
目的 探究胺碘酮联合美托洛尔治疗冠心病合并室性心律失常的疗效及安全性。方法 前瞻性选择2019年1月至2020年6月陕西省第四人民医院收治的114例冠心病合并室性心率失常患者作为研究对象,采用随机数表法分为观察组和对照组,每组57例。对照组患者在常规治疗基础上采用胺碘酮治疗,观察组患者在对照组治疗的基础上给予美托洛尔治疗,两组均治疗6个月。记录两组患者治疗期间窦性心律维持情况,于治疗前及治疗3、6
期刊
时序连接词是现代汉语中从语义和语用两个角度划分出来的一类词。它们在语义上表示一定的时序意义,在篇章上具有衔接上下文的连接功能,典型成员包括“原来、起初、以后、后来、先、接着、然后”等。这些时序连接词在《国际中文教育中文水平等级标准》中属于重要的语言点,大多是海外汉语学习者记叙类文章写作中使用的高频词。考察华中师范大学语言与语言教育研究中心的中介语语料库后发现,留学生在时序连接词的使用上存在较多偏误
学位
对外汉语事业的发展离不开汉语教材的研究,面向留学生的汉语教材是对外展现中国文化的一个重要窗口。“中国概论”是外国学生在中国接受高等教育的必修课程之一,其教材是来华留学生们接触中国文化并系统学习相关文化知识的重要来源。本文以文献研究、对比研究等研究方法,对近二十年来我国面向留学生的“中国概况”文化教材编写状况进行研究,梳理“中国概况”教材的发展历程及类型特色,着重从教材编写理念、教材编写内容、教材呈
学位
最新人教版高中思想政治教材已投入使用近3年,本版教材与以往教材相比有很大不同,就必修4《哲学与文化》教材来说,其中一点就是结合本册教材特点将原本教材中的“活动设计”调整为“阅读与思考”栏目。本文从栏目所处位置、字体格式以及与教材正文原理知识之间的关系等角度对《哲学与文化》教材中“阅读与思考”栏目的内涵进行了界定,并分析了该栏目的构成。同时,笔者对这一栏目的特点与类型进行了分析,认为其具有全面性与重
学位
研究背景在中国,肺癌是新发病例和死亡病例最多的恶性癌症,其主要病理类型为非小细胞肺癌(NSCLC),并且肺腺癌为其中的主要亚型。免疫治疗和靶向治疗的应用提供新的希望,但是大部分患者发现时已处于中晚期。现阶段,中晚期NSCLC患者的首选一线化疗方案仍以含铂药物治疗为主。然而,铂类药物耐药问题限制了肿瘤的治疗效果。越来越多的研究指出,LncRNAs(longnon-coding RNA)可能参与肺腺癌
学位
“红船精神”是党史文化资源的重要组成部分,对于学习中国共产党党史具有重要的意义,能够帮助大家了解中国共产党的成立过程以及奋斗历程,学习中国共产党员身上的优良品质。尤其是“红船精神”中的首创精神、奋斗精神、奉献精神,是指引中国共产党不断取得胜利的重要精神支柱,也是无数中国共产党人所具备的优良品质。“红船精神”有丰富的内容体系,能够培养高中生的优良品质,加强高中生对党史的了解,引导高中生拥护中国共产党
学位
受体是噬菌体与宿主细菌之间交互的媒介,研究噬菌体-受体-宿主之间的复杂关系是噬菌体耐药菌疗法的基础。生物医学文献库中蕴含着大量噬菌体和宿主交互关系研究成果,利用文本挖掘技术可以自动地从非结构化文本中提取这些关系,并对提取的知识进行结构化展示,方便进一步的研究和分析。已有工作研究了噬菌体和宿主二元关系的抽取,但噬菌体-宿主的关系涉及二元交互的中间介质(如受体),因此存在信息抽取不充分的问题。针对这一
学位
中国共产党的百年历史是一本内容丰富且独一无二的教科书。一百多年来,中国共产党初心不改、使命不怠、艰苦卓绝、破浪前行,中国共产党的历史就是最好的清醒剂和营养剂。尤其是对于高中阶段的青少年来说,他们从小就生活在国家强大、社会和平稳定以及物资条件相对富足的环境中,没有经历过战争年代血与火的考验,从而对中国共产党在探索建设过程中所经历的艰难险阻和所取得的伟大成就,缺乏直接的体验和切身的感受,这就导致他们极
学位
土地是经济发展的重要载体和资源,土地利用结构直接影响着区域经济的发展状况。十八大以来,我国经济发展形势进入新常态,目前“转变发展方式、调整产业结构”已经成为全国经济高质量发展的主旋律。土地作为重要的资源要素,其可持续利用是经济高质量发展的重要保障。进而如何优化土地利用结构、提高土地利用效率,是供给侧经济转型发展成功与否的关键。长江经济带地理上横跨东、中、西三大区域,其区位优势和自然禀赋条件都十分优
学位
目的研究渗透树脂用于恒磨牙窝沟封闭时的微渗漏、微缝隙及剪切粘接强度,与常用窝沟封闭材料进行比较,探索渗透树脂能否用于恒磨牙窝沟封闭,为临床上窝沟封闭材料的选择提供一定的参考信息。方法收集2020年6月-2020年8月在南方医科大学口腔医院颌面外科门诊部拔除的新鲜完整无龋第三磨牙共125颗,随机分为5组,A组:窝沟封闭剂组(Helioseal F);B组:玻璃离子组(GC FUJI Ⅶ);C组:流动
学位