基于深度迁移学习的在线评论文本情感分析研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:djs4520345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,人们的消费行为也随之发生了转变,消费者们可以根据需求主动的选择自己所偏好的商品。目前所有的主流网络购物平台都允许消费者对其所购买的商品和服务进行评价,这些评价信息不仅展示了消费者对商品和服务的主观情感态度,同时也为其他消费者在进行购买决策时提供了重要的参考依据。于此同时,商家也可以收集消费者的评论信息并对此进行情感分析,更加深入的了解消费者们的个性化需求,对商品进行不断的改进和提升。由此可见,评论信息已经变成了一种珍贵的资源,如何提取和利用其中的情感信息是目前主流的关注热点和研究方向。目前,解决传统情感分析问题的主要研究方法包括:基于情感词典的情感分析方法和基于机器学习的情感分析方法。基于情感词典的分析方法其核心是构建一个高质量的人工标注情感词典。然而,对于不同的领域,其情感词是不一样的,相同的词汇在不同领域可能表达的意思完全相反,所以需要针对具体领域构建与其相对应的情感词典。与此同时,各领域的新生词汇也在不断的涌现,要保证情感词汇库的质量还需要不断地对其进行维护和扩充,这项工作需要花费大量的人力资源和时间成本。基于机器学习的情感分析方法需要采用人工构建的文本特征并根据经验进行特征选择,近年来该方法的发展陷入了停滞阶段,模型最终的结果往往受到数据集或者特征选择方式的影响。当数据量有限或者语义比较明确时,传统的情感分析方法尽管能取得一些不错的效果,但是面对如今海量的数据和多样性的语义表达,使用传统的情感分析方法解决这类问题已经不现实了,急需提出新的有效方法来解决上述问题。近年来,深度学习和迁移学习的出现可以更有效的解决这些问题。本文提出了一种结合深度学习与迁移学习的算法模型对在线评论本文进行情感分析。使用深度学习方法解决传统机器学习情感分析所需要的特征工程工作,利用深度学习将这个步骤自动化,一次性学习所有特征,而无须自己手动设计。同时针对传统深度学习预训练的词向量无法准确的表示领域上下文的问题,提出了一种用于文本分类的预训练语言微调模型(Universal Language Model Fine-tuning for Text Classification),首先在大规模无标注的海量文本数据集上进行序列生成模型的预训练工作,其目的是学习语言和文字的通用特征,预训练模型可以通过输入一段文本序列来预测它的下文。然后借助迁移学习将源域中预先训练好的模型,包括整体的网络结构和其中的一部分参数,整体迁移到目标域中。在目标域数据集中逐层解冻迁移过来的网络模型参数和权重并对其进行模型的联合训练,不断地进行模型微调,降低了模型的困惑度,提高了模型的鲁棒性,减少了模型的过拟合,同时获得一个适应目标域任务的新模型。最后,在模型输出层的尾部拼接上一个用于文本情感分类的全连接层,得到一个情感分类概率,情感分为两类:积极和消极。本文选取了三种不同领域的在线评论数据集,并对数据集进行预处理,将原始数据集划分为训练集、验证集和测试集。随后利用本文提出的情感分类模型在训练集和验证集上进行训练,并在测试集上进行实验结果的验证。对比了其他传统的机器学习和深度学习情感分类算法,实验结果表明本文提出的方法在分类准确率上取得了比较明显的提升。在验证集上通过实验验证迁移学习可以有效的提升模型的训练效果,尤其是在小数据集上表现更出色,有效的解决了数据依赖等问题。
其他文献
期刊
期刊
9.9元3斤苹果、29.9元3袋夏威夷果、31.9元5斤越南玉芒……在张晓乐创办的“拼一下”商城(上海果色天香网络科技有限公司)中,各类水果、干果商品的售价可谓低到了“不可思议
期刊
近年来,胃癌研究发展迅速,许多先进技术和治疗理念逐渐引入外科领域并为大家接受,以手术为主,辅以化疗、生物靶向治疗的综合治疗观念已经建立,成为主导趋势,现就这方面的问题予以讨
期刊
期刊
期刊
目的探讨过氧化物酶体增殖物激活受体γ(PPARγ)激动剂15-脱氧前列腺素J2(15d—PGJ2)在大鼠肝脏缺血-再灌注损伤中的保护作用及机理。方法建立70%的大鼠肝脏缺血-再灌注损伤模型,40
期刊