基于BERT的商品分类方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:kk666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据GPC(Global Product Classification)分类标准,商品类别有几千种,实现快速准确的商品自动分类可以有效减轻工作人员负担。商品分类可通过商品图片、商品名称以及商品描述信息进行分类,本文通过商品名称对商品进行分类,由于商品名称属于文本且长度较短,因此本文着重研究对短文本分类方法改进并应用于商品分类任务。本文选择BERT模型进行微调并将BERT和其他模型结合应用于商品分类任务,所做主要工作如下:(1)微调BERT并应用于商品分类任务。重点研究BERT模型结构及工作原理,通过对BERT模型进行微调用于商品分类任务,并在自制数据集和北大开放研究数据平台获取的电商数据集上训练BERT模型和其他基准模型,在进行比较后,得出BERT模型相比于其他基准模型在商品分类任务的泛化能力更强的结论。(2)将BERT模型与TextCNN结合缓解微调后的BERT模型在商品分类任务存在的灾难性遗忘问题。TextCNN使用双通道输入,第一个通道采用BERT模型词嵌入得到的词向量作为输入,该词向量不会随着训练而更新;第二个通道采用Word2Vec词嵌入方式得到的词向量作为输入,该词向量作为参数会随着网络的训练不断更新,以此弥补BERT模型词嵌入过程中遗忘的信息。通过实验结果可知BERT-TextCNN的泛化能力好于微调后的BERT模型。(3)将BERT模型与TextRCNN结合缓解微调后的BERT模型在商品分类任务存在的灾难性遗忘问题。TextRCNN采用Bi LSTM,由于LSTM具有长时记忆能力,可以选择记忆序列在不同状态下的信息,因此可缓解BERT模型在商品分类任务中存在的灾难性遗忘问题。通过实验结果可知BERT-TextRCNN模型在商品分类任务的泛化能力最强。(4)实现商品自动分类系统。本文基于Spring Boot框架,接入通过Flask框架部署BERT-TextRCNN模型提供的分类接口,设计与实现了商品批量自动分类系统。
其他文献
长期以来,博弈问题都是人工智能研究者的关注重点。随着人工智能技术的快速发展,很多完备信息博弈问题(例如围棋、国际象棋等)通过博弈树搜索技术已经取得卓越的成果。目前,非完备信息博弈问题也成为了博弈研究的关注对象。与完备信息博弈不同,非完备信息博弈的参与者无法观察到全部的状态信息,单纯的博弈树在拓展过程中存在大量不确定因素难以进行下去,所以非完备信息博弈问题单靠搜索技术不能得到很好的解决,参与者需要针
学位
针对传统疲劳驾驶检测模型存在的网络模型较大以及检测精度低等问题,本文提出了一种基于改进YOLOv3的疲劳驾驶检测算法,并通过实验验证了其可行性,最终基于该模型实现了疲劳驾驶监督预警系统以及疲劳驾驶监管系统。本文的主要研究内容及工作如下:1.为了加快模型收敛的速度并且提升检测精度,本文改进了YOLOv3算法的Anchor Boxes以及回归损失函数Io U。利用K-Means++聚类算法结合本文所采
学位
随着计算机视觉的不断发展,图像修复技术成为了一个具有重大实际应用价值的研究课题之一。图像修复技术旨在有效地将破损图像的缺失部分进行填充。现有的图像修复方法主要存在以下两个问题。问题一,对于有大面积破损的图像,许多方法都无法重建出合理的结构,使修复后的图像产生模糊或结构混乱等问题。此外,对破损图像进行连续卷积提取高层语义信息时,由于丢失了底层特征导致被修复区域与未损坏区域具有明显颜色和纹理上的差异。
学位
人手被称为人类的第二大脑。在人类正常生活中,大多数精细动作是由手部完成的。近年来,随着我国人民饮食结构的变化和工作节奏的加快,心脑血管疾病已经成为危害人们身体健康的第一位疾病,并且该疾病也是造成患者手功能障碍的主要原因。然而,当前现有的手部虚拟康复系统体验感十分枯燥并且缺乏引导性与趣味性,甚至在康复训练过程中会对患者带来二次伤害。针对以上问题,亟需设计一种更加有效、安全、有趣味性的手部虚拟康复系统
学位
文本情感分析作为自然语言处理领域中重要的研究方向,在商品调研、社会热点现象分析等许多场景中都有巨大的应用价值。而传统的粗粒度级别的情感分析侧重于关注文本中整段或整句话的情感极性,不能够准确分析句子中不同方面的情感倾向。方面级情感分析作为一种细粒度情感分析任务,可以深层次地挖掘方面词和上下文之间的隐藏关联,从而判断句子中不同方面词的情感极性。为了更加准确高效地提取方面词对应的情感特征,本文针对现有方
学位
江西省的森林和湿地资源丰富,森林覆盖率常年稳定在63.1%以上,居全国第二。茂密的森林为江西省贡献了充足的自然资源,但也使江西成为森林火灾的多发区域,每年森林火灾都给江西带来沉重的消防资源损耗、自然资源损失、生命安全损害。对森林火灾风险等级进行有效的预测评估,有助于江西省森林火灾预防工作的开展,是减少森林火灾发生次数、降低森林火灾损失的重要途径。本文选择了森林火险气象等级与森林火灾发生概率两个指标
学位
在医学、航空等图像资源稀缺的领域,传统深度学习中需要大量图像样本进行训练的要求无法得到满足,而零样本学习的出现就解决了训练阶段图像稀缺的问题,它可以通过对图像数量充足的类别的训练实现对图像资源稀缺类别的识别和分类。本文选取基于生成模型的零样本学习方法为研究对象,以提高四种不同零样本学习设置下的图像分类准确率为目标进行研究和实验。本文提出了一种改进的变分自编码器(VAE)和生成对抗网络(GAN)融合
学位
肝癌,即肝脏恶性肿瘤,在全球范围内导致患癌的主要死亡原因中位列前三,对人类生命健康构成严重的威胁,对患者家庭生活造成影响。近年来,为了帮助医生在早期做出准确的病情评估和治疗,计算机断层扫描(CT)被广泛应用于筛查、诊断和测量肿瘤体积、形状和位置。然而,从大量CT切片中手动描绘肝脏和肿瘤病变的传统方法既耗时又费力,而且高度依赖临床医生的主观经验。此外,由于肝脏CT图像对比度较低,且肝脏肿瘤组织的大小
学位
风能是一种低碳环保、经济效益高的可再生能源,因此,风能的高效利用成为世界各国的关注焦点。通过提高风速预测的准确性,可提升风电机组的控制性能和发电量,进而实现风能的高效利用,对风能的可持续发展、能源规划和经济发展具有重要的意义。针对传统机器学习方法难以有效拟合海面风速突变的问题,本文从四个维度(气象要素、季节、时序和非线形)研究海面风速预测模型,即将数值预报方法、时间序列分解方法、序列任务预测的LS
学位
近年来,非机动车的行车安全引起了国家的极大重视,非机动车违规行为的存在是导致相关安全事故频发的主要原因,针对该问题,目前交管部门主要采取交警现场执法这种监管方式,该方式需要投入巨大的人力物力且效率十分低下。随着信息技术的发展,计算机视觉技术在交通领域的应用屡见不鲜,但是大多研究对象往往是机动车。因此,本文研究并设计了一套针对非机动车的违规行为识别系统,主要对未佩戴头盔、逆行、占道行驶等违规行为进行
学位