基于BERT的文本情感识别及应用研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:cyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感识别是自然语言处理领域中的研究热点之一,其应用也拥有着巨大的社会意义和商业价值。文本情感识别算法主要包括了基于情感词典方法、基于传统机器学习方法和基于深度学习方法三大类。本文在总结基于词典方法和基于深度学习方法的基础上,并根据文本情感识别的实际应用价值,进行了以下工作:(1)在Scrapy机制下设计爬虫收集豆瓣网的影评,为减少数据中干扰数据和提高模型分类准确率,针对收集的影评数据集进行预处理,预处理包含了中文分词、数据清洗、去停用词等。为了给BERT模型的输入增加情感词特征,通过SO-PMI方法构建领域情感词典。(2)为了充分运用情感词极性特征、深度学习的表征能力和预训练模型的训练能力,本文采用了BERT-SVM深度学习模型。该模型以预训练模型BERT为基础,在BERT模型进行训练时引进情感词特征,以该种形式为BERT模型的输入增加情感极性特征,从而达到对BERT模型微调训练的改进,并在BERT模型微调训练结束后再利用非线性分类能力较强的SVM算法对特征进行分类。通过实验得到情感分类的平均准确率为89.95%,较于对比模型提高了文本情感分类的准确率。(3)在已构建的电影评论情感词典和BERT-SVM深度学习模型的基础上,设计并实现了面向电影评论的文本情感识别系统。该系统可分为数据输入、数据预处理、模型分类和分类结果分析与展示四个模块。该系统通过本文的模型对输入的影评文本进行预测,可以实现对大规模的影评的情感极性的自动分类,并最终将结果进行展示。影评文本情感识别系统的测试也表明了本文算法具有较强的应用价值。
其他文献
新能源汽车的研究与推广成为了当代汽车应对环境污染问题的发展方向,电池管理系统作为新能源汽车的核心部件具有非常重要的研究意义和应用价值。本文以新型锂离子电池为基础,
释义是词典的核心问题,因此,释义的好坏决定了词典编纂质量和用户学习效率的高低。动物作为最常见的事物,它们与人类息息相关。对于英语学习者来说,动物类词散落在词典中,词
基本养老保险是社会的“减震器”和“稳定器”,牵一发而动全身。上世纪80年代,中国开始对养老保险制度进行改革,但改革的侧重点主要在企业进行,由于种种原因,机关事业单位养老保险一直延续着个人不缴费、财政养老的制度模式,其财政负担高替代率的退休制度加重了我国收入分配不公平的格局。2015年1月,国家正式对机关事业单位养老保险作出制度性改革。海口市作为海南省省会城市,机关事业单位千余家,参保人员涉及农垦改
2018年7月8日至2018年7月28日,笔者参与了由科技部国际合作司主办,西南科技大学承办的一带一路背景下2018年畜禽养殖加工及废弃物处理技术国际培训班。该项目在中国一带一路政策的倡议下,旨在解决现代畜禽养殖加工及废弃物处理技术在发展中国家推广过程中遇到的难题,同时推进中国和发展中国家的交流合作及现代化畜禽业先进科技的应用。参与双方主要包括:一是相关企业解说人员,二是来自七个国家的二十一名外籍
本文以我国法治国家建设的政治目标为导向,以该政治目标对我国公民政治意识的要求为指导原则,对我国公民政治意识的现状进行深入研究,指出了其存在的问题,同时对其存在问题的
随着化石能源的枯竭和环境问题的加剧,新能源正以不可阻挡的趋势成为未来能源行业的趋势。含大规模新能源结构既是用于解决日益严峻的能源发展问题和系统运行中的传统和新兴的风险的手段,又是一系列新兴系统运行风险的源头。因此对含大规模新能源的电力系统的风险动态评估进行深入的研究迫在眉睫。电力系统对风险评估日渐重视的同时面临着诸多难题,如计算建模困难、模糊性高、系统规模大导致随机性高等。本文结合大规模新能源的接
第一部分颈后路CenterpieceTM钛板在EOLP中的临床应用目的:探讨CenterpieceTM微型钛板在颈椎单开门椎管扩大成形术(expansive open-door laminoplasty EOLP)中的应用及早期临床
同声传译是一项复杂的认知和语言处理活动,包含了信息的接收、存储、转化和传递。因为处理时间有限,人们往往认为同传挑战多,难度大。对新手译员来说尤为如此。在新手译员面
目的脊髓损伤后机体病变及修复过程中常伴随着一系列病理生理变化,这些病理生理变化与一些细胞、分子的变化息息相关。本研究通过建立动物模型及实验观察探究SKIP(Ski intera
话题句是汉藏语系的一种独立句式,哈尼语垤玛话属于汉藏语系藏缅语族彝语支,是话题优先型语言,其话题结构是“话题+述题”,有明显的话题标记,分析性较强。本文借鉴刘丹青、徐