结合边界信息的细粒度情感分析

来源 :苏州大学 | 被引量 : 0次 | 上传用户:qinyongj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性级情感分析是一种细粒度的情感分析任务,针对商品评论,旨在分析出用户对于商品某一属性的情感倾向。具体可分为属性抽取与情感分析两部分,其中属性抽取作为其核心子任务一直是性能瓶颈之一。在众多影响抽取效果的因素中有两点极为重要,一是评论文本中噪声信息远多于属性描述,对属性词的发现造成极大干扰,影响属性词的召回率;二是属性词在精确定位时容易产生边界错误,影响抽取准确率。基于此,本文提出了基于范围检测的属性词抽取和基于边界控制的属性词抽取方法,分别去解决对应的两个问题。此外,端到端的属性级情感分析也逐渐变成该领域的一个新趋势,本文综合上述两点提出了一种结合边界信息的细粒度情感分析方法,并结合提示学习(Prompt learning)进一步优化了抽取质量。具体而言,本文的研究内容主要包含三个方面:(1)基于范围检测的属性词抽取方法针对商品评论中过多的噪声信息,本文提出了一种基于范围检测的属性词抽取方法,去分辨文本中哪一部分存在属性描述,从而过滤噪声信息。通过范围检测模块估计属性描述的大致位置,从而降低属性词的召回难度,让模型更关注于抽取的核心信息。本文基于span-based抽取模型设计出了一种两阶段的范围检测与属性词抽取的联合学习方法,一阶段联合学习范围检测与属性抽取,二阶段利用已知的属性描述进行属性抽取的推理。此外,本文还以预训练模型BERT的Segment Embedding作为模型感知范围信息的方法。(2)基于边界控制的属性词抽取方法针对属性抽取过程中常出现的边界错误问题,本文基于双仿射注意力网络提出了一种针对属性抽取的边界控制方法,对所预测的属性词做边界的重新估计,从而缓解边界错误。将属性抽取与边界控制做联合学习去加强模型对于属性边界信息的学习,并以集成学习的方式通过双向边界控制对属性边界进行校准从而提高属性的置信度与准确率。此外,本文还将方法拓展至多头结构去进一步提升抽取结果的鲁棒性。(3)结合边界信息的属性级情感分析针对传统pipeline属性级情感分析方法中存在的误差传播等问题,本文对端到端的属性级情感分析方法进行研究,基于范围检测与边界控制提出了一种结合边界信息的属性级情感分析方法。以提示学习的方式将两种方法的核心思想融入到预训练语言模型的预训练任务中。最后搭建了一个基于属性级情感分析的商品属性舆情分析系统,将所提出的方法在淘宝评论这一工业场景进行落地实验,化学术成果为工业产出。综上,本文提出了基于范围检测的属性词抽取方法和基于边界控制的属性词抽取方法,通过范围检测过滤噪声信息提高属性抽取的召回率,并以边界控制遏制抽取属性的边界错误提高属性抽取的准确率。本文还探究了端到端的属性级情感分析任务,构建结合边界信息的属性级情感分析方法,并基于提示学习方法对预训练语言模型做属性情感预训练任务,进一步提升抽取结果。最后,搭建了一个基于属性级情感分析的商品属性舆情分析系统,完成学术落地。
其他文献
对于自然语言处理领域中的机器翻译等跨语言任务,平行结构是训练神经网络来学习不同语言之间的映射关系的重要资源。除了现有的平行资源外,近年来很多研究者们都在尝试从单语语料中挖掘平行数据。目前,大多数研究集中于从单语语料中挖掘平行词对和平行句对,而由于平行短语对边界确定困难、单词形态复杂,所以从单语语料中挖掘平行短语对的研究非常稀少。因此,本文尝试利用多种方法,从单语语料中挖掘高质量的平行短语对,并探索
学位
本文的主要研究内容是不依靠平行语料的神经机器翻译系统的初始化研究,在不使用平行数据进行训练的方法中主要有无监督训练方法,它使用降噪自编码和反向翻译方法在单语语料上进行训练,而相关研究表明模型的初始参数往往对这类训练方法的最终效果有很大影响,错误的初始化可能会导致训练时产生太多噪声,从而会影响其最终性能。针对此问题,本文分别从真实词典监督,伪词典监督和元学习三个角度提出不同方法来提高初始化模型质量,
学位
产品质量和质保服务期限是两个重要且密切相关的业务决策。特别是耐用产品制造企业,在决定产品质量和质保期限时需要仔细权衡生产阶段的质量控制成本和销售阶段的质保服务成本,且不同的市场结构、产品价格以及竞争压力都会对企业决策产生影响。通过对国内外相关文献梳理,发现此类研究较少,本文利用博弈论和最优化理论研究方法,进行了以下几个方面的研究工作:首先,以垄断市场下企业捆绑销售质保产品给消费者为研究背景,考虑质
学位
地面沉降对城市发展以及人类生命财产安全有极大的危害,因此对地面进行沉降监测具有重大的现实意义。传统的监测方法费时费力、效率低、成本高,且不能实现大范围测量。时序InSAR技术具全天候、范围广、精度高及获取时间序列地表沉降等优点,逐渐成为城市地表监测的重要方法。本文利用两种不同的时序InSAR技术对杭州市和温州市的城市区域进行了地表形变监测,并对监测结果进行了验证分析,主要研究内容与成果如下:(1)
学位
报纸
面向多轮对话场景的省略恢复与指代消解任务是近年来自然语言处理领域的一项关键任务,其能够通过对缺省话语的补全消歧,获得更能表达完整语义信息的语句,以辅助推进对话进程,帮助对话系统正确地理解用户的意图。给予后续对话状态跟踪、对话回应生成、对话自动摘要等下游任务以强有力的基础支撑。近年来,随着深度学习技术在自然语言处理领域的兴起和发展,多轮对话省略恢复与指代消解研究也不可避免地受到了这波浪潮的冲击。本文
学位
随着屏幕时代的到来,人们对电子产品形成不同程度的依赖,加上空气污染与空调等外界环境因素的对泪膜稳定性的影响,干眼症已成为全球流行性眼部疾病。作为一种多病因的综合性疾病,干眼症检测过程复杂成本高,亟需更加便捷精准的诊断方式。然而相关研究表明深度学习技术在干眼症检测领域的研究与应用相对较少,因此本文就深度学习在干眼症检测领域进行研究,具体包括如下内容:(1)针对睑板腺人工标注数据量限制的问题,本文提出
学位
对比研究了喷丸和喷丸与振动光饰复合处理对GH4169高温合金疲劳性能的影响,利用扫描电子显微镜、粗糙度仪、显微硬度计、X射线应力测试仪分析和测试了试样的表面形貌、表层组织、粗糙度、显微硬度、残余应力场,探讨了表面完整性与疲劳性能的内在联系及作用机制。结果表明:复合处理对GH4169高温合金疲劳性能的改善效果比单独喷丸强化处理更好;复合处理使GH4169高温合金的室温疲劳强度提高了21.6%;500
期刊
隐式篇章关系识别旨在根据可靠的论元语义表示和有效的关系分类特征,推断出两个论元之间的篇章关系。该任务由于缺少显式推理线索,通常需要借助上下文信息、论元中的关键信息以及论元之间的交互信息,获得可靠的论元语义表示,从而形成基于语义深度理解的关系识别方法。然而,现有关系识别模型在表征论元语义时仍然受制于如下三项挑战,包括1)论元片段不完整造成语义缺失;2)上下文噪声信息误导论元的语义编码;3)论元的关键
学位
知识图谱为海量非结构化数据提供了一种组织、管理与理解方式,广泛应用在智能问答等人工智能任务。知识图谱表示学习模型通过编码映射的方式捕获三元组语义信息,使其更好地服务于人工智能应用。而补全实体和概念之间的链接不仅增强图谱完备性,还能反哺知识图谱表示学习模型。近年来知识图谱表示学习研究大多从单视角出发,将实体和概念看做相同的节点,这样不利于充分刻画实体和概念之间数据规模和拓扑结构的差异。而已有的双视角
学位