基于DeBERTa的微博文本情感分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:longsir8481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体是互联网飞速发展的产物之一,民众通过社交媒体交流信息已变成日常生活中必不可少的一件事情。微博作为热门的社交媒体之一,其特点是使用方式简单便捷、实时性高以及传播迅速,并因这些特点成为了国内民众表达情感和分享日常的重要渠道。微博拥有十分庞大的用户群体,每天都能产生海量含有民众情感的微博文本,微博文本成为了国内舆论走向的代表之一,因此对微博文本进行情感分类研究,可以挖掘出微博文本中的情感信息应用于舆情分析等领域。微博文本中存在多义词,基于情感词典的方法无法表示多义词且微博文本中存在情感词典未收录的词,传统的机器学习方法学习能力有限,深度学习方法中静态预训练语言模型Word2Vec等也不能解决多义词表征的问题。为了解决微博文本中蕴含的情感信息没有被充分表征以及情感分类准确率有待提高的问题,将效果更好的情感分类模型应用于舆情分析中,本文主要研究工作如下:第一,针对微博文本中蕴含的情感信息没有被充分表征以及情感分类准确率有待提高,提出了一种基于DeBERTa-Bi GRU-Attention的微博文本情感分类模型。该模型在动态预训练语言模型DeBERTa的基础上进行改进,首先在DeBERTa模型后接入Bi GRU网络获取更多上下文语义特征。然后在Bi GRU网络后引入Attention机制对文本特征分配相应的权重。实验结果表明,DeBERTa-Bi GRU-Attention模型情感分类效果更好。第二,提出了一种基于DeBERTa-Bi GRU-Attention的舆情分析模型。首先,使用Python爬虫在微博收集舆情数据。其次,使用DeBERTa-Bi GRU-Attention模型对舆情数据进行情感分类。再次,先对舆情数据去除停用词处理后再对情感分类数据进行词频统计,并使用Wordcloud生成情感词云图。最后,通过Matplotlib和Seaborn对情感分类结果进行可视化展示,并根据舆情数据可视化结果中的民众情感比例变化将舆情事件划分为形成期、爆发期、波动期和淡化期进行舆情分析。第三,设计了一个舆情数据分析系统,该系统基于DeBERTa-Bi GRU-Attention模型,可将用户选择的舆情数据进行情感分类并输出可视化结果。
其他文献
语文课堂教学具有突出的人文性、抽象性、思想性、教育性与探究性,因而对于以直观认知与直观思维为主的小学生来说的确具有一定的理解难度与认知难度,需要教师有效解决这一问题,才能够切实激发学生的认知能力与学习活力,实现高效教学的科学构建。在对小学语文教学实践的多维探究中,教师发现“生动课堂文化”具有很强的趣味性、主体性、能动性与实效性,直接加速了学生的知识积累、快乐交流、高效认知与主体发展,对于提高小学语
期刊
数字经济作为一种新经济形态,其能否在重塑产业空间布局的过程中促进公平效率更加统一,目前尚缺乏理论支撑和经验证据。本文使用融入了中间投入品的新经济地理模型,并基于由数字技术变革所引致的城际产业关联水平、劳动节约型技术进步以及区际交易成本的参数变化,来识别数字经济重塑产业空间布局的微观机理。利用2011—2019年我国286个地级市的面板数据,采用工具变量法以及“宽带中国”的准自然实验等方法,本文实证
期刊
本文以服务区监控视频数据为基础,建设车辆、人员专题数据库,从服务区运营管理者角度对比分析车辆和人员各类属性特征,发现服务区内车流、人流变化规律。
期刊
目的:探讨PCSK9抑制剂对心肌缺血再灌注后无复流现象的影响及其通过线粒体自噬减少心肌缺血再灌注损伤后无复流的机制。方法:选取8-10周龄(250-300g)Wistar雄性大鼠,随机分为假手术组、心肌缺血再灌注组(I/R组)和心肌缺血再灌注+PCSK9抑制剂组(I/R+P组)。通过构建大鼠缺血再灌注模型,观察固定缺血时间0.5h(假手术组除外),再灌注8h后,硫黄素S染色检测心肌无复流面积、TT
学位
目标跟踪是众多视觉任务中的热门研究课题之一,广泛应用于智能交通、安防监控和国防军事等诸多领域。近年来,基于孪生网络的目标跟踪方法因其优越的性能与效率吸引了大量研究人员的关注。然而,真实跟踪场景下存在的众多挑战性因子容易导致跟踪漂移或者失败。为了提升算法抵御各类干扰因子的能力,本文在Siam RPN框架的基础上提出了基于注意力特征优化的改进算法。本文的主要研究成果如下:1.针对当前大多数孪生跟踪方法
学位
缺陷检测是一项重要而又具有挑战的任务,传统做法是通过人眼对缺陷部位进行检测识别,这种方式非常耗时,存在较大主观性,且极其考验检测人员的耐性。因此,自动化缺陷检测方法和技术的研究逐渐引起了更多学者的关注。但自动化缺陷检测算法存在模型参数量大、准确度不够高等问题。本文围绕上述问题开展的主要工作如下:1.针对缺陷在图像中占比低、对比度低、连续性差等特性,以及现有自动化缺陷检测模型的推理速度不够快等问题,
学位
煤炭是我国主要的能源之一,保障煤矿的安全生产是煤炭行业的主要目标之一。矿井下的传送带区域是煤矿生产的一个危险区域,时常有工人违规操作,极易导致安全事故的发生。由于煤矿环境的特殊性,目前煤矿下视频监控技术的发展并不成熟,不能对传送带区域容易发生的违章行为和事故进行管控。因此,本文针对煤矿井下传送带区域内人员和传送带的状态监测的现存问题进行研究,提出了一种基于此场景监控视频的协同分析方法,并利用该方法
学位
作为一种自然界中资源最丰富的天然高分子材料,植物纤维由于其价格低廉、可再生、可降解等优点以及对水泥产品良好的力学性能提升效果,被认为是建筑材料中传统纤维的有效替代产品之一。然而,植物纤维在水泥孔隙溶液碱性环境下的劣化行为在很大程度上制约了植物纤维在水泥基材料中的广泛应用。因此,研究植物纤维在水泥孔隙溶液中的劣化行为并开发有效的耐久性调控技术具有重要意义。鉴于此,本文采用模拟的简化水泥孔隙溶液与真实
学位
报纸
随着我国电商行业的发展,各大电商平台需要更加个性化、智能化的方法提升平台的收益以及用户的购物体验。对用户的消费偏好的研究可以准确预测电商平台广告点击率,从而有效实现精准营销和个性化推荐。本文从电商平台用户历史行为序列和商品特征属性两个方面出发,深入电商平台用户、商品特征隐藏的用户兴趣研究。本文贡献总结如下:1.基于用户行为序列特征层面,针对传统循环神经网络处理时序数据的优势但忽略输入序列时间间隔的
学位