面向电商评论的跨语言属性级情感分类关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:xjtuzhanglei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和全球电商业务的快速发展,亚马逊、天猫国际、全球购等跨境电商平台成为了人们必不可少的购物工具,上亿用户对商品或服务做出评价,分享他们的购物体验。利用自然语言处理技术对这些包含用户情感的评论文本进行情感分析对于消费者和生产者具有十分重要的参考价值。但是,不同语言的情感语料资源在数量和质量上分布不均匀,人工标注工作耗时费力,从而无法更好地对情感资源不足的语言进行情感分类。跨语言情感分类即利用一种语料资源丰富的语言来辅助另一种语料资源匮乏的语言进行情感分类的技术,是目前自然语言处理领域的研究热点。但是,现有的跨语言情感分类研究均集中在文档级或句子级层面,而忽略了跨语言属性级情感分类方法的研究。针对这一问题,本文展开了面向电商评论的跨语言属性级情感分类关键技术研究,具体研究内容如下:首先,本文提出了一种基于翻译匹配的跨语言属性级情感分类方法。该方法利用机器翻译工具将源语言语料翻译为目标语言,通过多头自注意力层和自适应融合层建模属性级表示进行跨语言属性级情感分类。针对机器翻译工具导致的域偏移问题,本文利用翻译匹配的域适应方法减少翻译语言与自然语言之间的分布差异。此外,由于属性情感极性的判断依赖于与该属性相关的一组词或短语而与句子整体表达无关,本文首先利用多头自注意层建模目标翻译语料中属性与句子之间的细粒度交互,然后通过自适应融合层获得属性级向量表示,充分利用有效的属性情感信息提升跨语言情感分类性能。实验结果表明,该方法在处理跨语言属性级情感分类任务时较其他基准模型取得了较优的性能,后续的消融实验进一步验证了该方法的有效性。其次,文本提出了一种基于强化蒸馏的跨语言属性级情感分类方法。该方法在知识蒸馏框架下结合序列选择机制完成跨语言属性级情感分类。具体来说,该方法首先训练一个分类性能较好的源语言分类器作为教师网络,教师网络在训练阶段参数冻结并为目标语言分类器,即学生网络,提供软化的属性情感极性分布从而实现跨语言知识蒸馏。其次,机器翻译得到的翻译结果与自然语言相比,往往存在一些非常用词和翻译歧义,这些翻译噪声词对特定属性的情感分类没有参考价值,并且会增加目标语言分类器建模属性与句子细粒度交互的难度,因此本文提出属性敏感的序列选择器用于过滤翻译文本序列中的噪声词,该序列选择器使用强化学习算法进行训练。实验结果表明,该方法能有效去除翻译句子中的噪声词问题,帮助目标分类器生成更高质量的属性级向量表示,并在跨语言蒸馏框架下获得更好地泛化能力。最后,本文提出了一种基于跨语言预训练的跨语言属性级情感分类方法。该方法提出两个针对性的跨语言预训练任务用于增强预训练模型的跨语言对齐能力,预训练后的模型可以将源语言表示与目标语言表示映射到同一向量空间中,在不借助任何外部语料资源和机器翻译工具的条件下完成零资源跨语言属性级情感分类任务。具体而言,在预训练阶段,本文拟提出一种基于<源语言,目标翻译>句子对的预训练任务来提升多语言BERT的跨语言对齐能力。其中,预测遮蔽词任务鼓励模型对齐源语言与目标翻译表示增强模型词语级语义对齐能力和跨语言表示能力;预测下一句任务通过预测每个句子对中的源。目标语言句子是否表达同一语义增强模型句子级跨语言表示能力。在微调阶段,本文利用带属性级标注信息的源语言语料微调模型,微调过程中通过冻结部分模型参数来避免灾难遗忘问题。实验结果表明,该方法通过两阶段训练方法显著提升了跨语言属性级情感分类的性能,在零资源场景下取得了与基于机器翻译的跨语言方法相当甚至更优的性能。
其他文献
随着我国经济社会的不断发展,科技、医疗水平的不断进步,我国人口老龄化程度不断加深,人口预期寿命不断延长。大约每10年更新一次的我国人身保险业经验生命表与我国人口统计年鉴中的数据反映了我国社会正在进入深度老龄化阶段这一基本国情。在现行养老保障体系下,作为第一支柱的社会基本养老保险制度承担着很重的财政压力。大力发展第三支柱的商业养老保险市场,开发多样化的商业养老保险产品可以有效缓解目前养老保障三支柱体
学位
在含氮杂环的领域中,2,2’-联咪唑及其衍生物是一类具有多种配位能力的化合物,在生物、催化等许多领域具有重要的研究价值。本篇论文以乙二醛和浓氨水溶液为原料,通过正交实验探索出2,2’-联咪唑合成的最佳反应条件:乙二醛与浓氨水的摩尔比为1:7,反应温度40℃,浓氨水的滴加时间为2小时,产率52.1%,较文献值提高很多。通过熔点、红外光谱、核磁共振波谱等分析测试手段表征了所合成的2,2’-联咪唑的结构
学位
非遗文创是非物质文化遗产与设计创意有效融合产生的新兴文化产业。当今时代崇尚“图像先行”,图像在空间中所呈现的时间性和动态性可以更直观地达到叙事的目的。在非遗文创市场同质化严重、产品缺乏共鸣性的背景下,图像叙事以“讲故事”的思维方式,主题化、情节化的表现形式使用户更易获得场景感悟,引发情感共鸣。作为一种辅助设计的方法,图像叙事可以有效提升用户对文创的感知体验,实现非遗文化的延续传承。论文以非遗文化为
学位
牵牛子为旋花科植物裂叶牵牛Pharbitis nil(L.)Choisy或圆叶牵牛Pharbitis purpurea(L.)Voigt.的干燥成熟种子。始载于《名医别录》,又名黑丑、白丑、二丑等。其味苦性寒,有毒。归肺、肾、大肠经。具有泻水通便,消痰涤饮,杀虫攻积的功效。用于水肿胀满,二便不通,痰饮积聚,气逆喘咳,虫积腹痛等[1]。牵牛子不仅药用历史悠久,炮制历史亦十分悠久。其炮制始见于《雷公炮
学位
伴随着我国国民生活水平的逐步提高,在众多的消费品中,房地产产品的消费需求呈逐年大幅提升的态势。以万科地产AB项目所在的XA市为例,随着房地产产品消费需求的增长,该市区域内的房地产营销产业也随之出现了快速发展。2019年,房地产行业的主题以“房住不炒”为主,政策调控效应深化,投资性需求上升趋于平缓,但同时,刚性需求及改善性需求依然强劲,房地产营销的发展也因此更趋精准化。众多地产营销机构名目繁多的营销
学位
随着机器人技术研究快速发展的同时,履带式移动机器人作为移动机器人领域重要的内容,相关研究也越来越多。相对于轮式机器人,履带式移动机器人具有接触比压低,负载能力大,控制性能好等优点,被广泛应用于野外救援、户外勘探、特种运输等任务。设计一款集环境地图建模与路径规划导航且具有轨迹跟踪运动控制履带式移动机器人有重要的意义。ROS机器人操作系统作为一种新型的机器人开发工具,能够较好地实现机器人的快速开发,其
学位
在倡导构建环境友好型社会的大背景下,物流业向绿色化转型是大势所趋,城市配送作为物流系统中必不可少的末端环节,在绿色化发展的同时保证高效运输是市场对城市配送运力的基本要求。基于此,本文从高效和绿色的角度出发对城市配送运力优化方法进行了研究。首先,本文从宏观角度出发分析了城市配送运力的多个影响因素,将影响因素分为供给端和需求端两部分,分析了不同因素如何对配送运力规模和结构产生影响,并运用苏州市实际数据
学位
期刊
目的:研究磷酸二酯酶Ⅳ抑制剂Rolipram对正常大鼠心脏的血流动力学作用特点及其分子机理,为以磷酸二酯酶Ⅳ作为新靶点,开发正性肌力药物用于治疗心衰提供其理论基础。药品:Rolipram:购于 MedChem Express(MCE)公司,规格 10 mg,纯度>99.56%,目录号:HY-16900。方法:1.大鼠在体左心室和动脉血流动力学参数分析用20%乌拉坦(5 ml/kg,ip)麻醉大鼠后
学位
研究目的:探讨顺气化痰汤治疗气滞痰凝型颈动脉粥样硬化的临床疗效,评估药物治疗的安全性,为中医药治疗颈动脉粥样硬化提供临床依据。研究方法:选取2020年9月1日至2021年1月31日北京中医药大学东直门医院脑病科门诊诊断为气滞痰凝型颈动脉粥样硬化的患者26例,通过随机数字表分为2组,每组各13例。所有患者治疗前1个月及治疗期间不可使用他汀类等降脂药或其他干预血脂的治疗,暂停其他具有益气活血化痰作用的
学位