基于半监督学习的长短文本细粒度情感分析方法

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:fymps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度情感分析,也称为基于方面的情感分析,其目的是根据评论文本,提取和识别出某一实体的某个方面或属性的情感信息。随着互联网中各种评论不断涌现,如何准确、自动地对一段文本进行特定方面的情感分析成为了自然语言处理领域中一个广泛研究的课题。目前针对细粒度情感分析的研究方法绝大多数采用了有监督的深度学习算法。为了训练这些算法,前期需要收集和整理大量相关领域的文本数据并为每条数据进行手动标注,这些工作往往是费时,费力的。据我们所知,目前仅有少数的研究在细粒度情感分析任务中引入半监督学习算法来解决上述问题。因此,为了显著减少算法训练而做的前期工作,本文提出了一个新颖的基于半监督学习的框架,并展示了该框架如何使用有标签数据和无标签数据的融合信息实现对餐厅评论和学术论文评论中包含的方面情感的预测。本文主要的研究内容可以概括为:(1)考虑融合无标签数据提供的信息,本文提出了一个半监督学习的多层降噪编解码器框架(SEMDED)。该框架将解码器中降噪函数计算的重构变量和无噪编码器输入之间的损失用于无监督训练。同时,加噪编码器的损失用于有监督训练并将两个部分的损失相加作为半监督学习的损失函数。此外,为了使模型更好地处理情感预测任务,本文为半监督框架专门设计了混合注意力模块。该模块的引入所构建的SEMDED_MA模型能更关注于包含特定方面信息的文本碎片。在相同的实验条件下,SEMDED模型在准确率和Marco-F1方面均优于基准模型,且注意力增强后的模型SEMDED_MA仅使用少量有标签数据在三分类任务中达到了66%的准确率和63.71%的Marco-F1值。(2)考虑到处理长文本序列所需的内存大小和耗费时长随文本长度呈二次方的增长,本文在第4章中引入了稀疏注意力机制改进了提出的SEMDED_MA半监督学习模型使新的模型能应对长序列文本输入的场景。通过在真实的学术论文评论数据集上的实验证明改进后的模型能针对长文本输入生成更通用的文本表示有利于模型的预测。此外,稀疏注意力机制的引入能有效地减少因为数据长度引起的训练时间长的问题。综上所述,为了解决细粒度情感分析任务中有标签数据获取困难,标注数据过程代价高以及长序列数据难以输入模型用于训练的问题,本文分别提出了基于编码器和解码器的半监督学习框架和基于稀疏注意力机制的模型。所提出的模型在多项性能评价指标中均得到了有竞争力的结果。因此,本文的研究具有一定的应用价值,为细粒度情感分析任务提供了新的解决方案。
其他文献
我国是铝产业大国,2021年产量在4000万吨以上,而铝灰是铝加工行业中产生的固废,成分复杂且处理困难,历史累积量达1000万吨以上。在铝灰再生过程中,必然伴随废水的产生,废水若是处置不当,既会产生二次污染,也会降低铝灰再生产业的经济效益。本文研究是基于铝灰再生处置中废水处理方法,从来源到处理一体化,有效处置了铝灰处置中产生的废水,完成了以下工作:(1)铝灰再生过程废水产生机理研究及废水处理工艺流
学位
锂离子电池由于其能量密度高、平均输出电压高、可快速充放电等优良特性,被广泛应用于电动汽车动力电池等领域,然而单体电池在使用的过程中由于过充、过放会造成可用容量下降、循环充放电周期减少,增加了其使用过程中的不一致性,进而降低了电池组的使用寿命。电池均衡可以提高电池组的使用寿命,降低电池组中各个单体电池的不一致性,因此具有很重要的意义。而动力电池组由大量的单体电池串并联组成,很难用简单的均衡电路拓扑结
学位
<正>幼儿园的食育活动是以食物为载体或媒介的一种教育形态,融入幼儿一日生活的各个方面,引发幼儿对食物的兴趣,培养良好的饮食习惯,以促进幼儿身体健康、健全人格发展、传承传统文化等。我们基于儿童视角,围绕“航天员吃饭的秘密”这一幼儿感兴趣的话题,开展了一系列支持幼儿自主探索的食育活动。
期刊
随着智能电网的兴起和发展,非侵入式负荷监测技术目前尚存在特征量分析不够精细、特征量的信息未能充分使用、数据集依赖于国外等问题。对此,本文进行了一系列研究,针对当前特征量分析不够精细的问题,本文从多个角度对特征量进行挖掘,选择有效特征量实现用电设备的识别分解。针对当前算法对特征量信息使用不足的情况,本文引入了超状态,将超状态融入到分解算法中,最终取得了良好的应用效果。针对数据集的问题,本文构建了数据
学位
在经济飞速发展的今天,各行各业的工程建设都离不开钢筋。在工地现场,对于钢筋的交易和使用,由于其每根的价格比较昂贵,所以对数量的要求极其严格。人工点数的计数方法速度比较慢,而且员工长时间处于疲劳状态下工作可能导致点数错误,造成不必要的损失和纠纷,所以智能、高效、正确的钢筋计数就成了建筑行业迫切的需求。目前,目标检测技术在各种应用场景中都表现出了不错的检测效果,但在钢筋场景的检测上效果并不理想。主要的
学位
板翅式换热器是一种高效紧凑式换热装置,广泛运用于石油化工、低温空气分离、航空航天等诸多领域。翅片作为板翅式换热器的核心元件,加工质量检测与控制水平与国外仍有差距,为实现翅片冲压过程中翅片材料厚度、翅片几何尺寸参数高精度控制,研制翅片成套精密测量装置对提高翅片加工质量水平具有重要意义。针对翅片材料厚度和翅片几何尺寸检测,本文提出了基于激光检测技术和机器视觉检测技术的板翅式换热器翅片成型机检测系统,主
学位
随着计算机科学、自动控制理论、网络通信等技术的逐渐成熟,三维虚拟仿真技术也得到迅速发展,目前已广泛应用于各行业的职业技术培训中。传统的井下作业仿真培训系统画面真实感不足,且普遍局限于单人的仿真训练,已不满足职业院校对多岗位协同的井下作业仿真训练的需求。针对上述问题,本文结合井下作业的特点,基于三维虚拟仿真技术和网络通信技术,开展对井下作业多人协同仿真训练问题的研究,开发了井下作业虚拟仿真培训系统,
学位
<正>小学数学教师正确把握现阶段核心素养指导下小学数学课堂教学的方向,聚焦“双减”背景下小学数学单元整体课堂教学研究,响应“双减”政策,不断探究、不断创新,让小组合作成为打造优质、高效教学的有力抓手。教育不断变革,推动了新课改在教学中的发展。单元整体教学是史宁中先生在2021版新课标中提倡的大观念背景下的一种结构化的教学方式,这个方式的核心思想旨在培养学生的系统思维,在双减的政策下为了让学生能学有
期刊
全球约有三分之一人口表现出视觉高度的不耐受,这会造成在高处的运动与平衡障碍,影响了其中很多人的生活质量。研究视觉高度刺激下的运动学特征能够为恐高的诊断和治疗提供理论依据。目前,对恐高情绪下姿态控制的研究还存在一些问题:1)高空实验存在安全性问题,且实验高度远远低于日常生活中的常见高度。2)大多数研究主要集中在恐高的缓解上,缺少运动学方面全面的运动姿态量化分析。针对这些问题,本文利用虚拟现实技术(V
学位
智能印厂是印刷产业数字化和智能化转型升级的重要发展方向,而可视化是推动印刷企业转型、升级、再造和变轨的关键方法,同时也是智能印厂建设和印刷智能化应用的关键技术。本研究以智能印厂可视化中场景可视化和工艺数据可视化实现为目标,在系统分析与建构智能印厂可视化需求的基础上,从场景可视化和工艺数据可视化的设备模型、印厂场景构建、实现路径和实际应用出发,构建了一套适用于智能印厂的可视化方法。在场景可视化方面,
学位