智能优化KNN算法在电商商品分类中的应用研究

来源 :天津商业大学 | 被引量 : 0次 | 上传用户:ljy2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于电子商务的迅猛发展,我国网上商品零售额呈逐年上升趋势,并保持了较快的增长率。在此趋势下,由于网络购物平台上的商品数量越来越多,如果不能进行快速精确分类,就很难进行有效管理,另一方面,消费者也很难找到自己需要的产品,造成不好的购物体验,对平台和商家都会造成管理上的损失;同时也会给消费者带来一些不便和困扰。随着商品品种、数量的不断增多,商家的人工成本和管理成本也在逐步上升。因此,对商品进行归类是非常有必要的。商品名称由文本构成,利用商品名称解决商品分类问题,可以转换成了文本分类问题。针对这一问题,本文在商品数据分析基础上,提出一种利用狼群算法(Wolf Pack Algorithm,WPA)对K-近邻算法(K-Nearest Neighbor,,KNN)算法优化的商品名称短文本分类模型,并对组合模型采用狼群算法进行特征提取。狼群算法和KNN算法相结合的方法挖掘商品名称与类别背后的深层次关系,发现商品名称类别的特征,了解商家与顾客需求,实现精准搜索,仿真结果表明新算法具有较好的分类效果。本文主要研究内容和结果如下:(一)数据预处理,该步骤包括分词、去停用词、特征向量化、特征降维、特征选择等。本文提出了一种利用狼群算法结合信息增益法进行特征选择的算法,对初始特征集进行特征选择,本文使用的数据是Git Hub上的500000条商品名称及对应的三级类目,利用该数据进行算法验证分析。(二)构建分类模型,针对狼群算法和KNN算法的优缺点,进行相互弥补,构建了基于狼群算法优化的KNN算法,进行最优K值的选取,提高模型的运行效率和精度。(三)利用狼群算法对文本数据进行预处理以及对KNN算法进行参数选取,并利用优化后的模型进行文本分类的预测实验;与互信息法与单一信息增益法相比,实验结果表明本文提出的方法提高了分类性能;并与常规方法选出的K值的分类性能进行对比,结果证实进行改进的WPA-KNN模型对数据集分类的准确率有较好的提高。
其他文献
检察一体化是由检察权的特殊性所决定的检察权运行的内在规律,是世界各国普遍遵循的检察权运行原理,在我国也具有充分的法律依据。检察一体化在当前实践中亟待研究解决的主要是上级人民检察院能否按照一体化的原理调用辖区内的检察官异地办理案件、不同地方检察院之间如何协作办理同类型案件、检察院内部不同部门之间的职权划分等问题。对于这些问题,无论是学界还是实务界还存在一些不同认识,在我国现行法律框架下厘清相关认识,
期刊
城市轨道交通因具有较大的运输能力和较高的准时性等优势而得到大力发展。随着中国城市轨道交通运营里程稳步攀升,其运营安全问题引起了重要关注。纵观城市轨道交通的安全运营事故,火灾事故发生的频率较高。由于城市轨道交通车站地下空间狭小、客流量饱和并且与外界沟通出入口有限,一旦发生火灾事故,造成的人员伤亡损失和经济损失无法估量。城市轨道交通车站火灾乘客疏散的相关研究大多采用数值模拟仿真方法,但因火灾环境下乘客
学位
自光子自旋霍尔效应被发现以来,就引起了科学界的广泛关注,因其广泛应用于量子信息、光谱芯片、纳米光子器件、生物传感器、精密测量等领域。然而,光子自旋霍尔效应非常弱,怎样将其增强是非常必要的。拓扑半金属是近年来发现的一种拓扑材料,其与光子自旋霍尔效应的结合仍处于初期阶段,尤其是被称为“三维石墨烯”的外尔半金属和最近理论上被预言的节线半金属α-Li3N,它们在光电器件方面具有重要的应用前景,因此本文采用
学位
农产品区域品牌建设是推动农业高质量发展、实现乡村振兴的一种重要途径。如何提升农产品区域品牌建设,一直是各利益相关者关注的焦点。本文以知名的农产品区域品牌五常大米为案例,利用扎根理论的方法,厘清了各利益相关者对农产品区域品牌建设的影响效应,并将数字经济背景下的数字技术平台作为利益相关者,引入农产品区域品牌建设当中;构建了农产品区域品牌建设各利益相关者的作用机理模型,并为农产品区域品牌建设提出策略建议
期刊
品牌社区认同被视为一种消费者对品牌在认知与情感上的依恋,其是影响消费者与品牌之间紧密联系的重要因素。如若品牌社区认同度较高,则消费者对品牌的好感度、品牌对消费者个人价值的满足以及品牌自身品质与消费者自我认同的匹配度等将得到极大提升,消费者的购买意向势必也将得到增强。同时,当消费者感到被品牌社区所认同时,其会认为自己与品牌社区存在更多共同属性,进而产生同群效应,即更容易接受和模仿品牌社区中其他成员的
期刊
近年来,随着社会的快速发展与互联网的普及,音乐传播变的更为便利,音乐也逐渐成为人们精神生活不可或缺的一部分。面对网络及社交软件中海量的音乐,传统的专业人员人工分类形式已逐渐显得力不从心,如何使用统计理论与计算机技术对音乐的流派进行自动分类,提升分类效率,从而使商家可以进行有效推送,用户可以快速找到喜好的风格,成为当下需要解决的主要问题。目前,机器学习算法是进行音乐分类的主流方法。本研究在对音乐分类
学位
在软土地区和湿陷性黄土地区等地质软弱区段,内置式泵房轨道系统由于可以有效减小因废水泵房与联络通道合并建设而带来的隧道开挖风险,在城市轨道交通建设中得到了一定范围应用。内置式泵房轨道系统由于将废水泵房改设于道床内部,在道床中部进行了开槽开孔等处理,破坏了道床结构原有的完整性,对内置式泵房轨道系统的力学特性亟待研究。本文以城市轨道交通内置式泵房轨道系统为研究对象,结合盾构区间尺寸条件分析轨道系统的合理
学位
面部表情传达着人类情感状态的重要信息和线索,组成了人类社会环境最基础的交流沟通方式。随着大数据和人工智能的快速发展,计算机及其它智能产品在人机交互领域实现情感化得到众多研究者的关注,面部表情识别技术在与人们日常生活息息相关的各种领域都有着重要的研究价值和广泛的应用空间。由于传统表情识别方法在人脸表情识别过程中存在着特征提取不充分、受人脸图像的光照、姿态等环境因素影响较大,缺乏灵活性、稳定性与泛化性
学位
产业数字化是流通业高质量发展的数字化基础,也是流通企业技术创新的重要保障。本文利用中介效应模型和门槛效应模型实证分析产业数字化对珠三角城市群流通业发展的影响。研究发现,产业数字化对流通业规模增长和效率提升存在显著促进作用,但其影响效果具有非线性特点。产业数字化对流通业规模增长和效率提升存在双重门槛效应,随着产业数字化水平的逐步提升,产业数字化对流通业发展的驱动效果逐步增强;产业数字化可以通过技术创
期刊
<正>随着我国城市经济的不断发展,我国形成了城市化发展模式。为了使越来越多的农民生活水平得到提升,乡村振兴战略成为当前社会广为关注的重点。而实现我国农村经济的可持续发展,也为进一步实施我国乡村振兴战略打下了牢固基础,并且将促进乡村振兴战略的有效实施。由唐小凤著、中国原子能出版社于2020年3月出版的《实施乡村振兴战略背景下的中国农村经济发展研究》一书,梳理了我国农业农村经济发展的各方面情况,
期刊