基于文本数据增强和生成的方面级情感分类研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:rr_uu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
方面级情感分析(Aspect based sentiment analysis,ABSA)是当前自然语言处理(Natural language processing,NLP)领域的重要研究方向之一,该方法可以挖掘文本数据中某个特定实体或属性的情感倾向,进而更准确地反映复杂的情感特征。由于当前方面级情感分类应用领域较为广泛,部分领域包含的数据量规模较小、缺少较完备以及高质量的语料,导致存在可用数据集少样本(Few shot)、低资源(Low resources)等问题。此外,部分领域方面级情感分类数据集的方面词与上下文联系不够紧密的情况可能导致缺乏对全局信息的充分利用。针对上述问题,本研究通过构建多策略文本数据增强方案以及上下文文本生成模型来提高方面级情感分类模型的准确率。本文的主要工作有以下三个方面:(1)提出了一种多策略的文本数据增强方案,该方案首先基于词语层面对数据进行扩充,对原语料库的每个文档进行同义词替换、词语位置交换、删除部分字词等操作,得到词语增强后的数据。其次,再对原数据进行句子层面的扩充操作,包括句子改组、文本裁剪、语法树操作以及回译,形成句子级增强后的数据。在方面级情感分类领域数据集上验证了两种方法结合的多策略增强方法,并与词语级语料、句子级语料在几种分类器模型上的效果进行了对比,最终实验结果表明,多策略文本增强技术可以有效扩充数据量,提升模型的分类效果。(2)基于Bert(Bidirectional encoder representations from transformers)预训练语言模型与文本数据过滤算法构建了上下文文本生成模型。该模型首先利用Bert模型对上下文信息充分利用,同时更加关注句子之间的内部关系,有效结合句子和标签之间的关系,得到初步的数据增强语料库。其次,设计了过滤筛选的算法,对初步的增强语料库进行筛选,过滤掉生成质量不高的数据,形成最终的增强数据。最后,通过实验测试最终数据集,结果表明增强后的数据集提高了文本质量,有效提升了模型的方面级情感分类效果。(3)设计并实现了基于文本数据增强和生成的方面级情感分类系统。该系统包括:数据预处理、文本数据增强、方面级情感分类以及评论极性判别四个模块。首先,该系统可以对原始数据集进行一系列的文本数据增强操作,得到增强后的文本,然后整合文本增强工具和方面级情感分类的功能,预测数据增强后方面级情感分类的效果。最后,通过对在线旅游评论领域的文本数据进行应用,对文本的情感极性进行判别,以证明该系统的实用性。
其他文献
为落实交通部《关于实施绿色公路建设的指导意见》中提出的“五大发展”理念和“四个交通”的发展要求,着眼周期成本管控,强化建设与养护并重的目标。公路项目建设管理需要打破传统的工地现场预制安装的格局,建立工厂化集中预制,现场装配式施工的新模式,以保障工程质量,提高工程耐久性,实现工程内外品质的全面提升。文章对公路建设项目混凝土预制构件行业现状进行了研究,分析了预制构件工厂化建造在公路建设领域的必要性和可
期刊
如今,跨界应用已经广泛渗入到各个行业和领域,例如图书馆和档案馆都积极的开展了很多跨界融合项目,并取得了良好的效果。叙词表作为重要的知识组织工具,具有准确性高、专业性强、系统性高等特点,但应用领域、应用范围都相对较为局限,同时国内外对于叙词表跨界应用的研究少之又少。因此,开展叙词表跨界应用场景研究,通过整合外界资源,以现实需求为导向,打破行业壁垒,促进叙词表与社会各领域的相互渗透与合作是非常有必要的
学位
情报分析是情报工作的一个重要环节,它是以目标为导向,以信息为基础,以信息的形式进行分析。通过技术手段对数据进行分析,以获取新知识,并对所获取的知识进行归纳、关联、演绎、推理、整合等,形成新的、更有价值的信息。大数据时代的到来使得数据越来越海量化、碎片化,传统的情报分析方法已经无法充分挖掘和利用多源、多维度的海量数据,而随着人工智能的发展,基于深度学习和大数据分析技术的应用日益广泛,在信息采集、存贮
学位
当前,在力争实现“双碳”目标的背景下,大力发展绿色清洁能源、建立低碳循环经济体系已成为我国经济高质量发展的必由之路。酒泉市的区位优势明显,能源资源的综合优势凸出,新能源产业基础和发展态势较好。但是,存在电网输出规模有限、电能本地消纳领域小、消纳产业发展慢、产业同质化竞争力不足及装备制造业大而不强等问题,制约酒泉市新能源产业可持续发展。文章运用SWOT分析法(即基于内、外部竞争环境和竞争条件下的态势
期刊
报纸
随着社会经济发展水平的不断提高,公众的物质需求得到了空前的满足,与此同时精神文化需求也日益增长。进入数字时代以来,网络的广泛应用逐渐影响公众在消费文化产品和服务时所采取的方法和形式,迸发出更加便捷化的文化资源传播途径。相较于从前,公众对文化资源的获取方式有了更高的要求。以图书馆、档案馆和博物馆(英文缩写为LAM)为代表的公共文化服务机构在资源优势、工作内容、服务目标等方面存在着共性,共同承担着为国
学位
随着时代的进步,人们越来越重视精神文化生活的品质,文化旅游已经成为一种新的发展潮流。文化和旅游部就是在此背景下成立的,旨在执行文化强国战略、党的二十大精神等多注重宏观政策,通过“以文塑旅、以旅彰文”,推进文旅深入融合。公共图书馆在提升文化自信方面发挥着至关重要的作用,它不仅能够满足人们对于更加丰富多彩的精神文化生活的需求,还能够激发他们的潜能。作为山西省公共文化事业的重要组成部分,肩负着保护和传承
学位
21世纪以来,科学数据的开放和共享受到各国的重视,开放访问开始出现,并在此基础上逐渐发展成了开放数据,以及现在所谓的“开放科学”。当前,中国的科学数据开放政策体系框架相对落后,与国际先进水平有较大差距,而欧洲的发达国家则在此方面处于领先地位,主导了开放科学这一进程的发展。除了宏观的大数据战略之外,中国还没有针对开放科学出台具体的国家级政策规范,目前已有的科学数据开放共享相关政策,在内容和结构上也呈
学位
近年来,人口老龄化、生态环境与生活方式的变化使得居民仍然受到医疗健康问题的困扰。为积极应对该问题,我国大力推进“健康中国”行动,结合当前互联网飞速发展的时代背景,将健康信息化建设摆在了突出位置。这使得网络健康产业蓬勃发展,越来越多的居民通过网络健康信息辅助健康决策。然而,个人的健康信息素养、过量与低质量的信息以及隐私监管的缺失等问题,使得部分居民常常耗费大量成本获取健康信息,逐渐引发规避健康信息的
学位
新能源产业是中国应对气候变化、抢占新一轮科技与产业革命战略制高点的关键领域,环境规制是新能源产业实现高质量发展的重要支撑。20世纪90年代以来,新能源产业发展经历了政策激励产业建设、政府扶持产业规模化发展和政策体系促进产业高质量发展三个阶段。但是,与现阶段对新能源产业高质量发展的要求相比,环境规制仍存在绿色财政与税收制度不完善和绿色金融制度供给不足等问题。因此,要进一步发挥绿色发展理念的引导作用,
期刊