基于迁移学习的情感分析算法的研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:OSEric
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,飞速发展的互联网极大地改变了人们表达意见、抒发情感的方式和途径,微博、论坛等社交平台不断涌现,人们逐渐习惯于在这些平台上发表评论,这些评论蕴含许多重要的信息,例如情感倾向性等,通过对评论文本进行情感分析能够辅助人们进行产品推荐、舆情分析等,因此探究性能良好的情感分析算法具有巨大的实际意义。常用的情感分析方法主要分为基于传统机器学习技术、基于情感词典和基于深度学习的方法。基于深度学习的方法依靠无监督训练的词向量来表示文本,但是这种方法没用充分表示出文本的上下文语境关系,而且经常用于处理文本的循环神经网络结构比较复杂,训练难度较大。另外,随着各个领域新产品的不断涌现,新的领域往往缺少大量的有标签数据来训练模型,因此,研究如何利用已有领域的有标签训练数据对新的领域进行情感分析具有重要意义。本文针对现有的情感分析算法存在的问题进行了研究,探究了迁移学习技术在情感分析算法中的应用,主要的工作内容包括以下三个方面:(1)针对无监督训练的词向量无法表示上下文语境关系的问题,本文提出基于模型迁移的分层注意力网络的情感分析算法,利用机器翻译任务训练一个编码器,并将这个编码器模型结构迁移到情感分析任务中,用于生成文本的分布式表示。由于翻译模型需要充分提取上下文中的关键信息才能够尽可能准确地实现一种语言到另一种语言的转换,因此,经过这种方式获得的词向量涵盖了上下文语境关系,对情感分析算法的性能有很大的提升。(2)本文使用分层的注意力机制神经网络完成文本情感分析任务,网络主要分为单词层和句子层,在每层都使用一种称为最小门单元的简化的神经网络结构,减少了模型参数,降低了模型训练难度,并且在每层均引入了注意力机制来提取重要的信息。(3)针对在一个领域内训练的情感分析算法无法应用于其他领域的问题,本文提出了基于特征的跨领域迁移的情感分析算法,利用编码器提取领域无关的公有特征和目标领域的私有特征,然后结合这两种特征利用源领域有标签样本数据和小部分目标领域有标签样本数据训练分类器,实现跨领域情感分类。
其他文献
结果主义是现代西方学界非常流行的伦理学理论,功利主义是结果主义最重要的一种形式,相称主义则是结果主义在天主教伦理学中的一种表现。本文的主要任务是评述新自然法学派对
<正> 许多人认为,物理学就是早先的格致学,两者只是名称不同而已,实质是相同的。这一观点是否正确,笔者拟以史料为依据,对此进行一些探讨。“格致学”亦称“格物学”,“格物
目的评估高效液相色谱-串联质谱法测定兔肉中的氟苯尼考含量的不确定度。方法依据CNAS-GL06:2006《化学分析中不确定度的评估指南》和GB/T 20756-2006《可食动物肌肉、肝脏和
在互联网+强势冲击下,跨界已成为纪录片行业的风口。无论是跨领域合作、跨平台传播、跨行业融资,还是故事、选题的自我跨界创新,纪录片正从"相加"走向"相融"。本文通过分析纪
目的通过综合探索记录分析各因素影响,寻找将抗菌药物应用于眼科临床的治疗中的最佳方案。方法从药物选择、用法用量疗程、用药方式等多个方向进行探索分析诊疗效果。从我院
几位唐诗研究的著名学者都认为孟浩然是在开元十六年年底赴京,开元十七年春举进士不第,又在岁暮返乡,《赴命途中逢雪》一诗即写于此次赴京途中.本文从时俗、实例、情理、科举
金丹派南宗第五祖白玉蟾以丹论名著于世,融通三教是其内丹性命思想的最突出特征之一。他援儒入道,摄禅融老,强调炼形以养神、明心见性以合道,究其实质是欲以道为本,融合三教
第一部分:脑卒中后吞咽障碍患者并发抑郁状态患病率及其相关因素分析目的探讨脑卒中后吞咽障碍患者并发抑郁状态的发生率及其危险因素。方法前瞻性收集我院住院或门诊治疗的脑
朱淑真诗词中多处涉笔"东风"、"东君",有时是褒义,但多数是贬义。本文试将该意象主要归为四种意思:春风,春光;意中人;封建礼教;父母。并加以详细分析。