基于Hadoop的电商商品文本分类研究与实现

被引量 : 4次 | 上传用户:BlueWindow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域的研究热点,具有重要的意义,被广泛应用在现实生活中。虽然现阶段分类技术已经比较成熟了,但随着人类社会的发展,出现了数据的爆发,分类算法在海量数据前面临着新的挑战。当前对分类算法的研究侧重于提高其分类正确率,鲜有研究如何提高分类速率,而大数据下,很容易得到大规模的训练集以提高正确率,但这又对分类速率提出了要求。海量数据下,研究分类速度的提高具有重大意义。本文基于Hadoop平台,设计实现了一个基于朴素贝叶斯算法的文本分类器,采用大规模电商商品训练集的分类系统。首先介绍了课题的来源和研究背景以及意义;然后介绍了文本分类的相关技术,包括对文档信息进行预处理的技术方法——分词和停用词处理,分词包括对中文的主流分词技术和对英文进行分词;接着介绍了文档的向量空间模型表示,对向量空间模型进行降维的特征选择算法以及区别特征对分类贡献程度的特征权重;紧接着介绍了文本分类器的评价标准和朴素贝叶斯理论;最后对Hadoop平台的相关知识做了研究介绍,主要包括HDFS和Map/Reduce。然后研究了机械分词的特点和目前大多数分词器仅仅针对中文或者英文的缺陷,设计实现了一个适应中英文混合文档基于机械分词的并且拥有简单的基于统计的歧义处理的分词器,而且其基于lucene的分词接口Analyzer实现,能够与lucene联合使用;lucene根据分词器的分词结果建立索引以加快相关特征的词频统计。通过概率树的平滑和权重改进对分类准确率进行了优化。同时为了加快分类器迅速,结合基于WAND算法的快速搜索算法提出了快速朴素贝叶斯算法(Fast Na ve Bayes)。在Hadoop分布式环境下,采用大规模电商商品训练集,实验表明分类器具有良好的精度、召回率和F1值,而且具有较快的分类速度,具有一定的使用价值。最后,详细介绍了基于Hadoop平台文本的分类器的实现过程,包括Hadoop分布式环境的搭建以及快速贝叶斯算法的Map/Reduce并行环境下的实现。且架设了一个应用Hadoop文本分类得到的分类模型的的图书推荐系统,其采用B/S架构,应用Mysql数据库和Java web技术。
其他文献
目的 :分析 2型糖尿病血糖控制不良的原因 ,探讨血糖控制的对策。方法 :选择已经确诊的血糖控制不良的 2型糖尿病患者 80例 ,进行问卷调查 ,分析血糖控制不良原因 ,然后对每
为了评价卷烟小盒包装密封性能,设计了一套特殊规格的小盒密封度测量模具,并利用小盒密封度测试仪对玉溪卷烟厂生产的所有品牌规格卷烟的小盒密封度进行了测量。采用方差分析
以源于牦牛曲拉的6株益生乳酸菌为研究对象,比较了耐酸能力、耐胆盐能力、耐渗透压能力和抑菌性能。结果表明:6株乳酸菌菌株的耐酸能力、耐胆盐能力、耐渗透压能力和抑菌性能
随着经济全球化的快速发展,我国利率市场化进程也在快速的向前迈进。为增加利息收入,越来越多的金融机构将目光投向微小企业信贷市场。微小企业在我国国民经济发展中起着非常重
感温电缆主要用于同时检测被测物多点的温度,它的应用范围很广,不仅可以应用于工业领域,比如接入工厂的电缆温度检测,也可以用于农业领域,比如大棚温度的检测。传统的感温电缆主要
人类今天正面临着人口增长过快、资源日益减少和环境保护不力三大问题。随着各国经济的飞速发展和世界人口的不断增加,人类消耗的自然资源越来越多,陆地上的资源日益减少。为了
目的:对比分析腰椎间盘突出患者的CT与MRI影像的特点以及诊断价值。方法:选取2010年12月-2014年3月期间收治患者56例,全部被确诊为腰椎间盘突出,对这些患者的资料进行回顾性
商标的装饰性使用是指使用人将他人商标或与他人商标相似的标识用于衣服、帽子、首饰、文具、杯子等商品,在上述商品中,商标均成为商品之重要装饰,并提供表达或美学功能,使得有些
新泰太平山省级自然保护区成立于2009年,是以保护赤松为主的森林类型自然保护区。太平山属鲁中泰沂山脉的支脉,山势陡峭,沟谷众多,主峰太平顶海拔813.6m,相对高差520m。太平
旅行作为当今人们休闲的一种方式,受到各年龄、职业、社会阶层人们的喜爱。随着互联网的发展,各种在线旅行平台孕育而生,通过旅行平台打包销售旅行产品已经成为一种趋势。但