基于跨文档学习的多流BertGCN情感分类模型

来源 :河北经贸大学 | 被引量 : 0次 | 上传用户:zwb20042002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术已趋于成熟,人们生活的方方面面都已经离不开互联网,越来越多人们开始在互联网平台上发表带有自己主观色彩的评论,这个文本信息能为商家和其他用户的行为提供指引,所以研究这些文本背后的情感倾向具有重要的实际意义,同时这些蕴含情感倾向的文本信息是研究情感分类任务的主体数据来源。情感分类任务已成为自然语言处理领域的研究热点,各种情感分类模型被提出,模型的分类性能也有了很大的提升。特别是最近Bert GCN模型因其良好的文本分类性能而受到研究者的关注。虽然情感文本分类任务的研究已取得了很大的发展,但仍然存在一些问题。在为基于GCN的模型构建异质图的时候,如果仅使用语料库中的原始文档,可能丢失一些有效信息。并且,原始数据集中类内文档相似度差异较大时,可能导致构建的文档节点相比于其他类的文档节点没有区分度,进而无法准确进行待测文本的分类。因此,本文构建了一个基于跨文档学习的三流Bert GCN情感分类模型。首先,本文提出了一种针对训练集文本的处理方式:计算训练集文本的类内相似度;根据类内相似度将文档进行组合,得到了组合文档(CD)。这样得到的组合文档类内相似度差异较小,各类文档之间具有较强的区分度;同时这种处理方式,将数据进行了跨文档的组合合并,实现了数据增强,更加充分地挖掘了文本信息。其次,将上述跨文档学习过程(文本相似度计算、依据相似度进行文档组合)重复进行三次,得到了三组组合文档。根据得到的组合文档构建模型异质图,训练得到多个单流Bert GCN模型。最后,将多个单流Bert GCN模型进行了模型融合,得到了最终的多流Bert GCN模型,通过模型融合进一步提高了模型的分类性能。为了验证模型性能,选取了两个数据集(MR和SST)进行测试,并将本文提出的模型与一些典型、先进的模型(比如,基于CNN的模型、基于RNN的模型、图模型和Bert GCN模型等)进行了对比,实验结果表明,在这两个数据集上,本文提出的模型有更高的准确率,表明模型具有更好的分类性能。
其他文献
近年来,随着经济社会的发展和国民消费水平的不断提升,旅游业增速明显,发展势头强劲。在高质量发展的总体要求下,旅游业以其具有的经济效益、社会效益和生态效益等优势,得到了资本市场的广泛关注,并逐步发展成为国民经济的战略性支柱产业。特别是全域旅游概念的提出,各地国资国企以区域旅游资源整合和拉动地方经济为初衷,积极挖掘旅游资源内在潜能,不断优化产业布局,以旅游作为主业的国有企业借政策和资源优势迅速发展壮大
学位
在数字经济的时代背景之下,情感分析越来越广泛。很多用户通过各种网络平台进行点评,这些评论代表了评论者的一种主观倾向,隐藏在这些评论背后的情感信息,具有重要的商业与社会价值。当前,有关情感分析的方法可以分为三类:情感词典,机器学习,深度学习。基于情感词典的情感分类依赖词典中的情感词汇,基于机器学习的情感分析方法依赖训练文本的特征。而以深度学习为基础的情感分析方法,则可以充分考虑上下文特点,对文本特征
学位
绩效管理在公司日常运营和变革转型中起着至关重要的作用。近年来,通信行业基础业务市场竞争白热化,与此同时,新兴业务市场加速扩张,千行百业的数字化需求激增,推动通信企业由基础业务服务商向综合信息服务商转型。在转型过程中,如何通过绩效管理改革,推动员工产业数字化业务能力提升,是各大通信运营商面临的重要课题。本文针对Z电信公司在公司转型过程中的绩效管理问题进行了研究,通过优化其绩效管理体系,不仅有助于提升
学位
近年来,乳腺癌已成为全球第一大癌症,在中国的发病率增长速度远远超过全球平均水平。单纯依靠医生手工判断乳腺肿瘤的良恶性,不仅效率低下,而且容易因经验不足和知识能力欠缺等主观因素导致误诊的情况。因此,引入计算机智能技术来辅助诊断乳腺肿瘤的良恶性,为医生提供医疗帮助是非常必要的。本文研究并设计了一个采用差分进化麻雀搜索组合优化支持向量机分类模型,提高乳腺癌诊断的效率和准确性。研究内容主要集中在开发和测试
学位
自十九大会议上首次提出“经济高质量发展”一词后,二十大开幕式上,习总书记再次强调了高质量发展是全面建设社会主义现代化国家的首要任务。高质量发展是贯彻新发展理念的根本体现,是涉及到创新、协调、绿色、开放、共享等多方面的发展;同时,交通基础设施在经济发展中扮演着重要的角色,要实现高质量发展,离不开交通运输发挥基础性作用。高速铁路作为我国交通基础设施中的重要组成部分,近年来发展迅猛,我国已基本形成“四横
学位
扣非净利润是反映企业盈余质量的重要指标,能够帮助投资者正确评估公司价值与可持续发展能力。上市公司出于改善盈余质量的目的,往往会通过操控经常性损益和非经常性损益等多种路径调节盈余结构。所以当企业不再满足于一味关注净利润指标的唯数量操控,而在进行盈余管理时兼具对盈余结构的操控,突出核心经营盈余的主体性以向市场传递积极信号时,净利润与非经常性损益都可能在管理者当局操控下丧失其原有真实信息含量。因此,准确
学位
改革开放以来,我国经济发展迅速,国民经济水平显著提升,城镇化速度加快,人民生活水平也在不断提高。但在这一过程中也产生了许多问题,大规模的城镇化建设集中于土地建设、人口转移与经济发展,而忽视了社会民生、公共服务、基础设施的建设,同时城镇化的盲目扩张也导致了经济社会与生态环境的失衡。现阶段高速增长的经济模式对环境造成了巨大的负担,环境污染日益严重,为解决经济发展带来的环境问题,我国提出要加强生态文明建
学位
2022年,党的二十大报告指出,加速数字经济的发展步伐,促进实体经济与数字经济的深度融合。将数字经济做大做强,培育数字信息技术在制造业转型升级中的发展动能,推动制造业高质量发展,完成“制造强国”战略使命。基于此,研究数字经济对制造业转型升级的影响,对于实现建设强国的战略目标具有重要意义。本文利用中国大陆2013—2020年30个省市(西藏除外)的面板数据,分析数字经济水平对制造业转型升级的影响。首
学位
2022年中央一号文件《中共中央、国务院关于全面推进乡村振兴重点工作的意见》中重点突出了实施“数商兴农”工程,推进电子商务进入乡村。电商助农是脱贫攻坚战下的新型产业状态,利用电商经济助力农业农村,可以快速地发展形成新型产业链融合,优化产业结构,从而促进乡村发展。在此背景下,研究电商助农成效,能够对我国全面实现乡村振兴目标以及推进农业现代化的发展具有重要的理论和实践意义。本文在充分查阅资料和阅读文献
学位
世界各国城市化进程加快,城市数量巨增,人们获得便捷生活的同时,环境污染、住房紧缺等问题接踵而至,为解决城市化进程过快所带来的问题,“健康城市”这一理念被提出。中国城市化进程起步较晚,为提升经济实力,展开了一系列以牺牲环境为代价的经济活动,可持续发展面临挑战。2016年,《“健康中国2030”规划纲要》指出,建设健康城市是推进健康中国的重要抓手。长江三角洲、京津冀城市群、珠江三角洲三大城市群是中国经
学位