基于BERT-TextCNN-B的电影评论情感分析

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:y1271
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
改革开放40多年来,我国的经济呈现出稳步持续的增长趋势,与此同时,随着互联网技术的高速发展,社交网络已经逐步渗透到人们生活的方方面面,各种社交论坛、网站、APP等如雨后春笋般诞生,在满足人们各式各样的生活需求时,也为我们提供了商品评论、社交评论、服务评论等信息。这些评论中隐藏着评论者对评论对象的反馈,挖掘其中的情感倾向信息,能够给消费者提供购物参考,也能帮助商家优化产品、改进经营策略。因此,本文以电影评论为研究对象,通过分析其中的情感倾向,为购买提供决策支持,也从客观角度全面分析影片,总结正面或负面的反馈意见,指导电影行业朝着更好的方向发展。本文以《流浪地球》电影评论数据为基础,不仅从整体角度进行了评论信息的粗粒度情感分析,还从挖掘评论主题视角下进行了细粒度情感分析,主要研究内容包括:(1)数据采集与预处理:本文基于网络爬虫技术,利用Python爬取了豆瓣网、猫眼APP上《流浪地球》影评数据;预处理过程主要是去除重复性及无关性文本、纠正拼写、语法错误等,共得到12823条影评。此外还介绍了词向量技术——Word2Vec和BERT模型,为后续情感分析实验奠定基础。(2)粗粒度情感分析:本文分别分析了情感词典及规则模型的情感分类和BERT-Text CNN深度学习模型的情感分类:在基于情感词典及规则模型的分类中,以知网情感词典为基础词典,补充否定词词典、程度副词词典、连词词典、反问副词词典等四个辅助词典,筛选出候选情感词,采用SO-PMI算法构建了电影领域的情感词典,设计情感计算规则,按照情感得分值进行情感极性的二元分类;在基于BERT-Text CNN模型的分类中,使用BERT模型做文本向量化处理,作为Text CNN模型的输入,经参数调优后,进行了情感极性的三元分类;最后,引入贝叶斯理论,将情感值作为先验信息,提出了BERT-Text CNN-B模型,分类效果显著提高,准确率96.22%,精确率82,51%,召回率89.03%,F1值85.51%。(3)细粒度情感分析:本文首先利用LDA主题模型进行主题建模,提取评论中的主要主题以及相应主题所包含的属性词,又自定义主题与初始化属性关键词,采用Word2Vec词向量化技术,根据Cosine相似度计算实现属性词聚类,以词云图展示聚类结果,融合主题-属性词集合后,得到“题材”、“剧情”、“角色”、“画面”、“配乐”五个主题,基于BERT-Text CNN-B模型进行主题角度下的情感分类。
其他文献
智慧农业需要大规模的传感器采集空气温湿度、土壤温湿度、土壤氮磷钾、二氧化碳等多种农业数据,传感器的数据格式差异大,导致开发成本高;传感器的数量规模一般需达到数十万,
为探索新疆北疆地区滴灌棉花液态有机肥与氮肥合理配施技术,2015年-2016年分别于新疆呼图壁县、昌吉州三坪农场对棉花进行施用液态有机肥的研究,探究“新壮态”液态有机肥不
非晶合金作为一种新材料,具有高强度,高弹性极限等优点,因而备受关注,但由于缺乏室温拉伸塑性而限制了其应用。为了理解这种现象,本文采用分子动力学模拟方法,通过LAMMPS软件先对Zr_2Cu非晶合金在拉伸形变过程中的自由体积、剪切转变区和剪切带三者关系进行研究。然后对非晶合金进行预压缩处理,研究了预压缩对Zr_2Cu非晶合金力学性能微机制的影响。首先,对非晶合金的拉伸过程进行了研究。结果表明,非晶合
我国目前的经济发展处于由高速度发展向高质量发展的转型阶段,而并购重组因其能够助力公司在短期内实现资源整合、产业升级的特性,成为公司寻求转型发展的重要选择。近年来,监管部门也在进一步完善并购重组的法律法规,鼓励企业的并购行为。由于并购双方存在信息不对称,被收购方一般会做出业绩承诺以保障收购方的合法权益,尽管2016年《上市公司重大资产重组管理办法》修订后不再强制要求被收购方做出业绩承诺,但是签订业绩
颗粒饲料是饲料产品的主要物理形态,具有营养全面、稳定性好的特点。水分含量是颗粒饲料品质的基本指标,直接影响饲料产品的质量及其贮藏性能。水分含量的检测是颗粒饲料生产过程中重要的技术手段之一。目前,水分含量的测定通常采用常压恒温干燥法,该方法虽然结果稳定、精度高,但测定周期较长,无法满足快速无损检测的技术要求。所以,研究颗粒饲料水分快速检测方法,开发一种颗粒饲料水分快速无损检测仪,对于丰富饲料水分检测
道路旅行时间能够直观地反映路段的交通拥堵状态,它是发展智能交通系统的重要基础。实时地预测各关键路段的旅行时间,不仅有助于交通管理部门针对某些潜在拥堵的路段采取交通管制,也可以为行人提供实时的路况信息以及制定最佳出行计划。在交通网络初具规模的今天,利用数据驱动的方法构建智慧交通是目前缓解和预防交通拥堵的主要手段。由于道路旅行时间受诸多环境因素的影响,如何利用交通历史数据集准确且实时地预测各路段的旅行
本次创作的内容是佛教八瑞相元素在藏地文旅绘本产品中的应用。将佛教八瑞相元素作为研究对象,基于其文化内涵和造型语义进行解构分析并运用到藏地文旅绘本产品的设计中。探析藏地文旅产品开发的文化需求及审美需求,研究不同时期藏地文化在环境、信仰因素影响下图腾审美的演变,总结出相应的审美特点和规律作为绘本产品创作风格调性上的指导。探寻藏地民俗文化与佛教文化元素在信仰环境下的语义关联,以八瑞相元素为纽带将两者运用
随着车辆的不断增多,越来越多大型复杂室内停车场被建成,这使得停车巡航问题不再仅发生在停车场之外,在停车场内寻找车位和停车也花费了汽车驾驶员大量的时间和精力。现有解决方案一般仅具有停车诱导功能,信息化与智能化程度低。因此,在室内停车场引入车联网与室内定位等技术来提高停车系统的信息化和智能化程度,对有效解决停车巡航问题,提高停车效率,达到降低资源消耗和交通压力的目的,具有重要的研究意义与实用价值。为解
轴流式冷却循环泵是核动力舰船冷却子系统中的核心旋转部件之一,当其运行于小流量工况时,尤其是失速工况,泵内非稳定流动诱发的低频振动和噪声严重危害着系统的安全性。本文
“基于仿真的采办”(虚拟采办)是一种新的采办理念,近年来已经被美国国防部和国防工业界逐渐认可,这是现代武器系统采办虚拟化和集成化发展的大势所趋。智能体具有自主性、智能性和交互性,基于多智能体的建模与仿真方法是一种新的建模与仿真方法,可以将复杂的系统分解简化成单个子系统来解决。本文采用系统集成、软硬件开发相融合的设计理念,构建了一个基于多智能体的虚拟采办建模与仿真软件系统,在节约成本的同时,有效缩短