【摘 要】
:
在互联网技术蓬勃发展的大环境下,电商平台的不断完善,推动着选择网上购买服装的群体数量逐年增加,同时也产生了大批量的服装评论文本。评论文本表达了消费者对购买商品的主观情感倾向,有效地分析这些服装评论,不仅有助于商家提高产品质量,改善服务水平,还有助于消费者进行购买决策。如何快速有效的从海量的评论文本中挖掘出消费者对于商品及其属性相关方面持有的观点成为了情感分析领域的热点问题。传统的文本情感分析主要是
论文部分内容阅读
在互联网技术蓬勃发展的大环境下,电商平台的不断完善,推动着选择网上购买服装的群体数量逐年增加,同时也产生了大批量的服装评论文本。评论文本表达了消费者对购买商品的主观情感倾向,有效地分析这些服装评论,不仅有助于商家提高产品质量,改善服务水平,还有助于消费者进行购买决策。如何快速有效的从海量的评论文本中挖掘出消费者对于商品及其属性相关方面持有的观点成为了情感分析领域的热点问题。传统的文本情感分析主要是针对篇章和句子进行情感倾向判断,但是随着市场竞争的日益增强,这样传统的粗粒度情感分析方法难以有效获取消费者日益突出的个性化需求。细粒度情感分析旨在获取商品各个属性方面的情感倾向信息,对于帮助商家和消费者更好的了解商品的信息,具有重要的应用价值,越来越受到研究者的关注。但是,目前已有的细粒度情感分析研究成果,大多数是关于电子产品、汽车、餐厅等,由于没有公开整理好的服装评论数据,对服装领域评论的细粒度情感分析研究较少。此外,细粒度情感分析目前仍然存在着许多困难和挑战,比如评论文本中评价词缺少对应的评价对象(实体或属性)、中文的一词多义等。本文针对服装评论的细粒度情感分析中的语料库构建、属性提取、属性情感极性判断以及隐式属性识别任务进行研究,所做的主要工作如下:首先,针对细粒度情感分析研究中缺乏服装评论数据集的这个基本问题,本文收集了“天猫”电商平台上某服装品牌的12983条服装评论,对评论进行去重、去除换行符和删除无效评论等一系列预处理操作后,整理出了9640条有效评论。并针对细粒度情感分析中的不同任务采用了不同的标注方案进行数据标注,构建了用于细粒度情感分析的服装评论语料库。提出的标注方案以字为单位进行标注,有效回避了自然语言处理中的分词不准确问题。其次,针对细粒度情感分析中的属性提取和属性情感分类任务,提出了一种基于联合标注方案的联合模型TE-Bi GRU-CRF。该模型由Transformer编码器、Bi GRU网络和CRF构成,充分利用了Transformer编码器强大的字间关系捕获能力和Bi GRU网络的上下文特征提取能力并通过CRF学习标签约束,获得最优标签序列。Transformer编码器弥补了Bi GRU网络不能进行并行计算以及难以处理长序列句子的不足,有效改善模型的预测效果。实验结果表明,本文设计的TEBi GRU-CRF模型与传统的Bi GRU-CRF模型和TE-CRF模型相比,F1值分别提高了1.12%和6.3%,证明了模型的可行性和有效性。另外,本方法采用联合的标注方案以一种端到端的方式解决了细粒度情感分析中的属性提取及其情感分类问题,具有更高的实际应用价值。最后,本文提出一种针对在线服装商品评论隐式属性识别Bi GRU-IC-CRF方法,用于从没有明确的商品属性名的在线服装评论中识别出商品属性名和评价词集合及其内部对应关系。该模型在Bi GRU-CRF的基础上,引入IC模块,模块主要基于门控机制来维持同一组评价词对应评价对象的一致性,识别效果得到进一步提高。在自建的数据集上与Bi GRU、Bi GRU-CRF等方法进行对比实验。结果表明,本方法具有更高的识别率,F1值达到了85.48%,相对于Bi GRU、Bi GRU-IC以及Bi GRU-CRF方法的F1值分别提高了4.15%、3.98%、1.16%。本方法不仅适用于服装评论中的隐式属性识别,也有助于其它领域商品评论的隐式属性识别。
其他文献
展示设计集技术与艺术于一身,是当下科技与美学的集成体现。展览既是信息交换的媒介,也是文化传播的平台。单一、快速的城市化发展打破了原本和谐稳定的区域秩序,冲击了原本丰富多彩的地域文化。地域文化的结构或解体、或同质,文化遗产或流失、或断层。文化的保护不是简单的保留,文化的复兴不是原样的复制。文化的传承是一个循环、动态的过程,需要持久化地激活,更需要自发性地展示与传播。展览随时代发展不断扩展其设计内涵和
止血材料由于原材料的来源差异不同,可以分为传统止血材料和新型止血材料这两大类型。由于传统的止血材料在临床应用的时候发现这类产品的止血效果不佳,难以被生物机体吸收,并且极易滋生细菌,存在着许多生物安全隐患,因此为了扩展止血材料的进一步应用,过去的十几年间,研究学者研究出新型的止血材料。各种各类的止血材料层出不穷。理想的止血材料的条件是:止血高效,便于使用和灭菌处理,材料稳定并且无免疫原性,可生物降解
目前,世界上大量的羽毛被废弃,造成了资源的严重浪费和环境的污染。在现今及以后的社会经济中,绿色经济将越来越重要,因此,资源的回收利用和保护环境也将变得愈来愈重要。角蛋白是一种广泛存在于人和动物表皮、毛发以及动物壳、爪等组织的纤维状蛋白质,其一级结构中半胱氨酸含量高达7-20%,并以二硫键形式稳定存在。研究表明,角蛋白具有无免疫原性、生物相容性好、可生物降解等特性,在组织工程支架材料、药物载体等领域
我国展览行业随着经济发展而成长,无论是行业项目的类型还是基础理论及技术均已取得丰硕成果,竞争也日益加剧,在此背景下的展览行业同时面对自身发展的瓶颈。一方面,展览行业的展示形式正向技术化和多元化发展,越来越多的展示活动从单一运营的模式发展到集展览空间、博物馆、艺术馆、购物场所等为一体的多模块融合运营新模式。展示理念正从以展品展示为核心关注对象转向对整体空间营造与体验塑造的关注,这种类型的发展趋势易造
“凤翔泥塑”不仅是凤翔当地最具特色的标志性文化符号,更是我国宝贵的民间文化艺术财富。在凤翔泥塑被认定为国家级非物质文化遗产后,当地的旅游产业快速发展,给凤翔县带来巨大的经济效益的同时,也暴露出当地公共交通视觉设计存在一些不足之处。鉴于当前凤翔县公共交通视觉设计的不完善,本文提出一整套凤翔县公共交通视觉识别系统改善方案,在保障凤翔交通运输功能的前提下,对公共交通系统的识别性进行系统化设计,进而创新性
踝关节作为人体最末端的主要承重关节,其复杂的解剖结构和运动机制,使得踝关节运动损伤较为常见。生物力学作为生物与力学的交叉,能够帮助医生更好地了解人体的力学传递机制以及损伤机理。有限元方法应用于踝关节生物力学模拟分析,可以有效地模拟拉伸、扭转等力学实验,从而解决踝关节力学模拟问题,帮助医生进行快速诊断和治疗。但是,由于踝关节模型的复杂性,难以获得韧带等组织的真实模型,导致模型精确度降低。本文提出使用
超密集网络(Ultra Dense Networks,UDN)作为5G下解决流量爆炸与满足用户增长需求的关键架构,是一种有效的方案。但在UDN网络架构中小规模基站的密集部署面临着新的挑战,例如缓存文件时缓存命中率的下降,时间延迟的显著增加以及服务质量的下滑。为了克服这些挑战并达到苛刻的性能要求,需要设计合理的缓存管理策略,以提高整个网络的性能。目前网络环境中的内容具有时变性,如何合理的设计缓存策略
随着医学和护理学的发展,以及人们对生命质量的重视,越来越多的专业医护人员开始关注临终患者,而更多的临终病人也希望得到被尊重,临终关怀成为一个越来越受关注的领域。本文以世界临终关怀运动的领导者西塞里·桑德斯作为研究对象,通过其1959-1999的书信集分析和挖掘她对于临终关怀、对于生命和死亡的理解,重点从叙事结构和诠释理解的角度分析了该书信集在语言、写作和内容上的特点,并且说明书信这种作品形式在体现
随着科学技术的发展,光学元件在各领域得到广泛的应用,除了精度要求日益提高,同时元件的尺寸也逐渐加大。移相式激光干涉是光学元件表面形貌检测的主要方法,由于波长调谐移相干涉技术在检测过程中不需移动干涉仪内部的参考镜,而具有更高的稳定性,常作为大口径光学元件的主要检测方法。波长调谐激光干涉仪一般采用菲索式干涉结构,在检测过程中,干涉仪通过改变输入电压调谐激光波长,进而改变参考光与测试光之间的光程差,以获
随着经济的快速发展以及人口数量的迅速增加,清洁能源将成为决定人类未来发展的关键性因素,其中核能被认为是清洁能源重要组成部分。钍基熔盐堆作为第四代先进核能系统的一种候选堆型,具有固有安全性高、核废料少、扩散风险低等优点,但由于其运行温度较高及传热介质的强腐蚀性,其结构材料的性能面临严峻的挑战。UNS N10003镍基合金虽可满足熔盐堆结构材料的性能要求,但其成本过高。国内外研究表明双金属复合板能兼具