基于自然语言处理技术的电商商品标题类目分类算法研究

来源 :内蒙古农业大学 | 被引量 : 0次 | 上传用户:yangzanJane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电商直播带货是国内近年以来新兴起的一个行业,它大大地推动了国民经济的发展,并且为国民带来了巨大的生活便利,也为商家提供了一个更有利于发展的平台。然而这个新兴起的行业发展异常迅速,平台在巨大的利益面前忽略了在数据处理方面的缺点,即数据的自动化处理,所以在这个领域依然处于人工处理阶段,这大大地降低了数据处理的效率。所以基于此,本文针对电商直播带货行业产生的商品标题类目分类进行了研究。内容如下:(1)利用网络爬虫技术针对淘宝与抖音2021年排名前十主播所属直播间曾直播带货销售过的商品信息进行抓取,共得到31237条数据,数据集共识别四类商品标题:服饰、美妆、生活和食品,其中“服饰”类别10035条,“美妆”类别8954条,“生活”类别6845条,“食品”类别5403条。针对总数据量将其随机分为三个不同训练集和测试集比例的数据集:数据集Ⅰ、Ⅱ和Ⅲ,数据量分别为10000条、10000条和11237条,其训练集和测试集比例分别为60%和40%、70%和30%、80%和20%。(2)针对数据利用Jieba工具进行预处理操作,即去噪、分词,由于数据本身特征原因,所以并不需要去停操作。然后利用TF-IDF和Word2vec两种词向量模型分别提取文本特征,将输出的结果分别输入到机器学习模型和LSTM-Self-Attention混合模型中进行分类。(3)利用决策树、随机森林、朴素贝叶斯和XGboost四种机器学习算法模型对商品进行分类,经分析计算,针对数据集Ⅱ的分类正确率均高于其他两个数据集,并且其中XGboost效果最好,准确率达到90.89%。(4)构建LSTM-Self-Attention混合模型,模型由三层组成,分别是自注意力加权层,长短期记忆网络分类层以及Softmax归一化处理层,其中自注意力加权层为Word2vec模型输入的词向量赋予Attention权重,然后输入到长短期记忆网络分类层中进行分类,最后再通过Softmax层进行归一化处理得到最终的商品标题分类的类别。LSTM-Self-Attention混合模型相比于机器学习算法模型,其分类效果更好,针对数据集Ⅱ的分类准确率达到92.09%。
其他文献
近年来,随着我国经济的不断发展和人民生活水平的提高,水利水电工程建设在国家经济和社会发展中的地位日益重要。水利水电工程管理作为水利水电工程建设的重要组成部分,对于水利水电工程建设的质量、进度和效益具有至关重要的影响。因此,本文旨在探讨现代化水利水电工程管理现状,分析其存在的问题,并提出相应的改进对策,以推动水利水电工程建设的现代化发展。
期刊
草地作为世界上分布最广的植被类型之一,为人类提供了一系列重要的生态系统产品(肉奶、皮毛、各种草药)和服务(防风固沙、大气调节、涵养水源等)。然而,由于气候变化和人类活动干扰,草地的生物多样性和生态系统功能发生了巨大变化。植物功能多样性可以从植物的生长、防御、抵抗等功能策略方面解释生物多样性与生态系统功能间的联系,是评估生态系统功能的一种重要指标。传统的植物功能多样性测定手段费时、费力,同时也受时间
学位
随着人民生活水平的提高,对牛肉的需求逐渐增加,肉牛的饲养量也越来越大。河北省赤城县肉牛的饲养以散户为主,农户对肉牛养殖的成本收益缺乏较为精确的核算,而成本收益核算对于降低饲养成本、提高收益具有重要作用。本文对河北省和赤城县的肉牛养殖现状进行分析研究,发现赤城县的肉牛养殖具有向好的发展前景。并对赤城县散户肉牛养殖的成本和收益进行了调查研究,发现赤城县肉牛饲养户多数不进行成本收益核算,即使进行核算其成
学位
黑麦草(Lolium perenne L.)是欧洲和大洋洲国家奶牛养殖的主要饲草,而在内蒙古地区奶牛养殖的主要饲草为苜蓿和饲用燕麦草。在内蒙古地区无法推广主要原因是行业内存在我国北方不适合规模化种植黑麦草、种植黑麦草的效益不如种植苜蓿和饲用燕麦的观点。本论文通过在内蒙古自治区科尔沁饲草产区(巴林右旗试验区)、毛乌素饲草产区(乌审旗试验区)和河套饲草产区(磴口县试验区)共3个典型地区进行黑麦草规模化
学位
土壤是人们赖以生存发展必不可少的基础环境和重要的资源。在近些年,由于人类的生产活动以及各种自然界因素的变化,大量的重金属进入土壤里,不仅危害了土壤的质量,同时还通过食物链传递而在人体大量积累,已严重威胁到了人们的健康。本研究以内蒙古自治区西部的某铅锌矿矿区附近农田土壤为主要研究对象,通过集中采集耕地表层(0~20 cm)土壤,分析测定了土壤p H、有机质和铜(Cu)、铅(Pb)、锌(Zn)、铬(C
学位
短花针茅荒漠草原由于地处严酷的干旱气候区,土壤水分条件较差,受降水量年际波动和季节差异的影响尤为突出,群落地上生物量积累偏低且波动很大。本文以四子王旗阿德格短花针茅荒漠草原为研究对象,通过单因素随机区组试验设计,深入研究了不同降水分配模式下优势种、不同功能群及其整体群落特征的变化规律,主要目的是通过探索草地植物对生长季不同降水分配的生态响应过程,进一步阐明了荒漠草原生态系统植物群落特征以及草原生产
学位
煤炭资源是我国重要的经济能源,内蒙古自治区作为煤炭储量大省,是我国重要的能源保障基地。内蒙古的煤炭资源多分布于干旱和半干旱草原区,以露天开采为主。大面积露天开采对脆弱的草原生态造成极大的负面影响。露天开采后堆积成的排土场,不仅形成新的裸露景观,还造成周边地区环境的大面积污染。因此,对排土场进行生态恢复成为内蒙古草原环境保护和资源可持续利用中的迫切任务。在排土场生态恢复中,土壤改良和适宜植物种选择是
学位
干酪是一种营养价值及经济价值都十分突出的乳制品。其中,软质新鲜干酪因其风味清淡且食用方便而受到中国消费者的喜爱。但随着健康意识的深入,干酪较高的脂肪含量又让消费者望而生畏。低脂干酪存在着质地干硬,风味不足的缺点,添加适宜的脂肪替代物有助于低脂干酪品质的改善。本试验筛选了最适于低脂新鲜干酪的脂肪替代物,并明确了其对干酪凝乳特性的影响。在此基础上探究了工艺参数对凝乳特性改善的作用,确定了低脂新鲜干酪工
学位
内蒙古西辽河平原地区土壤盐碱化程度高、土壤理化性质差、作物种植模式单一且连作频繁等现实问题是造成该地区农田土壤退化与可持续生产力下降的重要因素,如何调整和优化作物种植模式来实现盐碱化耕地的高效利用已成为该区域农业研究热点之一。本研究采取5种不同轮作方式探究其对土壤理化性质、盐碱特征、养分含量的影响以及不同轮作模式经济效益差异,筛选出适宜内蒙古西辽河地区苏打盐碱化耕地的最佳的轮作方式,以期为该地区盐
学位
乳清是生产干酪的一种副产物,其产量较大且营养十分丰富,但多是以废弃物形式被排放,不仅造成较大的资源浪费,还会对环境造成较严重的污染。如何更好的加工利用乳清成为亟待需要解决的问题。本研究以乳清粉为原料,以酒精度、感官评价为指标,通过单因素和正交试验,采用乳酸杆菌与酵母菌先后发酵方式,并对其配方、发酵条件进行了优化,同时对其贮存期间品质变化规律进行了研究,克服了风味相对单一、乳糖利用率低、发酵时间不稳
学位