一种基于向量空间模型的商品分类算法

被引量 : 0次 | 上传用户:yingyingpps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着万维网的广泛应用,电子商务也渐渐引起了人们的关注。无论是供应商还是消费者,都被电子商务突破时间和空间的限制所带来的便捷所吸引。与传统的商务活动相比较,电子商务在交易形态和方式上有着许多不同,因此也带来了商品营销方式的变化。将商品高效合理的分类,是电子商务环境下销售者为顾客提供的重要的技术手段之一,为买卖双方的交易提供了极大的便利。商品自动分类技术(Product Automatic Classification)基本任务就是对一件商品,根据其内容,从预先定义好的类别集中找出一个或者多个最适合于该商品的类别。商品自动分类算法是电子商务的重要研究方向,它能在给定的分类体系下,根据商品的内容自动判别商品类别。近年来,商品分类技术已经逐渐与搜索引擎、机器学习、信息过滤等文本处理技术相结合。基于向量空间模型的商品分类算法,能依据商品的特征词将大量的商品自动分门别类,从而更好地帮助电子商务网站及用户把握商品信息,有效地提高了商品分类的质量。商品自动分类技术从开始出现到现在,经历了从基于规则到基于统计分类,再到规则和统计相结合的一个过程。本文的研究内容主要有以下几个方面:首先,本文对商品分类的国内外研究现状进行了分析和总结,并提出了本文研究的主要内容。接着详细介绍了基于向量空间模型的商品分类系统所涉及到的一些技术,包括商品分类原理和模型、商品特征选择、常用商品分类算法和评估方法等。论文介绍了传统的树状结构商品分类模型,提出了改进的DAP模型表示法。然后,论文对传统的基于向量空间模型的AutoCat算法进行了分析,针对该算法的不足,提出了引入多元词组紧密度的基于向量空间模型的商品分类算法,最后通过实验验证了算法的有效性。
其他文献
我国食品安全领域存在的大量问题,往往给人一种不知所措的印象。一方面是新闻媒体的高频率报道和社会公众的不满情绪,一方面是政府各部门为改善食品安全所做的种种努力。然而
谷胱甘肽是生物体自合成的内源性活性三肽,分为还原型谷胱甘肽(GSH)和氧化型谷胱甘肽(GSSG)两种类型。谷胱甘肽具有抗氧化、免疫,解毒、参与氨基酸的吸收和DNA的合成等重要的
本文对中国近十几年来对亲子关系的研究做了简要的总结和评述,从亲子关系的定义,内容,发展,存在的问题及解决方法等方面入手展开,着重分析我国亲子关系对儿童心理健康的影响,
信息产品的价值对消费者偏好具有很强的依赖性,所以信息产品的消费者偏好对信息产品的定价具有重要的影响。因此信息产品的定价不适用边际成本定价法或市场需求定价法,最可行
本文通过试验对天然骨料和再生粗骨料之间的物理性能差异进行对比,考虑水灰比、骨料颗粒级配等因素,通过实验和数据分析新型透水性混凝土路面材料的配合比设计,并且从抗压性
企业获得和保持对市场竞争各要素的独占或相对垄断这一动态过程的持续成为企业长寿的基本条件。企业的努力可能受市场条件的变化或激烈的竞争而失败;但更多的情况是企业通过
以“八荣八耻”为主要内容的社会主义荣辱观,是十六大以来党的又一理论创新成果。它不但继承了中华民族热爱祖国、团结互助、诚实守信、辛勤劳动、艰苦奋斗的传统优秀品德,而
委婉语的使用是人类交往过程中非常普遍的一种语言现象。委婉语的出现使得人与人之间的交际能避免一些误解,更加顺畅。文章介绍了委婉语的功能,在此基础上提出了教师在大学英
对中国国家食品药品监督管理总局(CFDA)于2014年6月27日发布的GMP附录《中药饮片》条款与以往法规要求尤其是与国食药监安[2004]514号进行了较为详细的对比和解读,以期为目前中
传统的整流装置是电网污染的主要来源,三相电压型PWM整流器具有输出电压恒定、实现单位功率因数运行的特点,并可以实现电能回馈电网。本文主要研究三相电压型PWM整流器,包括