基于Spark计算框架的分布式文本分类方法研究

来源 :数据挖掘 | 被引量 : 0次 | 上传用户：shijiatiedaoxueyuan

【摘要】

：

针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的

【作者】

：

唐慧丰郭威张乐

【机构】

：

战略支援部队信息工程大学,战略支援部队信息工程大学研究生院

【出处】

：

数据挖掘

【发表日期】

：

2018年4期

【关键词】

：

文本分类计算框架朴素贝叶斯 TF-IDF

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的文本分类实现过程。实验阶段,分别在单机、Map Reduce和Spark三种不同的计算框架下测试了文本分类的效率,并使用控制变量的方法在Spark计算框架下设计对照实验。实验证明,Spark计算框架下的朴素贝叶斯算法在面对海量文本分类时有着较高的处理效率。

其他文献

化学反应工程的未来发展

化学反应工程经过50多年的发展,已成为一门相对较为成熟的工程学科。本文将从化学反应工程理论体系的进一步完善, 新型反应装置开发的个性化,化学反应工程应用范围的进一步拓

期刊

化学反应工程未来发展可持续发展

基于随机森林方法的北京市二手房价格研究

随着经济的发展和可供开发土地的减少,二手房价一路飙高。截止到2016年5月底,北京城内六区二手房均价已超6万。对二手房价格进行评估预测将对居民生活产生重要影响,也可以给

期刊

二手房房价预测Boostrap抽样决策树随机森林

斜板(管)沉降分离数学模型的构建与剖析

在油田污水处理过程中,斜板(或斜管)除油器用于强化油水分离、去除污水中的细小油滴,斜板(管)工艺结构尺寸的设计与优化是影响斜板(管)除油效率的关键。本文运用沉降理论,通

期刊

斜板(管)沉降模型设计参数建模与剖析

牛珀至宝微丸对肺损伤早期纤维化大鼠TGF-β1表达的影响

目的观察牛珀至宝微丸对肺损伤早期纤维化大鼠转化生长因子β1（TGF-β1）的影响。方法48只sD大鼠随机均分为4组：对照组（C组）、内毒素组（LPS组）、低剂量牛珀至宝微丸预处理组（LD组）、高

期刊

牛珀至宝微丸肺损伤肺纤维化转化生子因子β1Niupo zhibao micropill pulmonary injury pulmonary f

小区开放对周边道路通行能力影响的研究

本文构建了五个评价指标,用于评价小区开放对周边道路通行能力的影响,并通过可达性指标对比了不同类型小区开放前后的通行情况。首先利用Floyd最短路方法以及相应公式对道路

期刊

小区开放道路通行评价体系量化模型FLOYD算法主成分分析

硫酸酯化茯苓多糖对裸鼠胃腺癌的抑制研究

目的探讨硫酸酯化茯苓多糖（S-PCS3-II）对裸鼠胃腺癌的抑制作用。方法无菌抽取人低分化胃腺癌细胞MKN-45,接种于裸鼠右侧腹股沟皮下,形成皮下移植瘤。将裸鼠随机分成5组：正常饮水

期刊

硫酸酯化茯苓多糖裸鼠MKN-45胃癌细胞株胃癌模型sulfated derivatives polysaccharides from sclerotiu

美国无铅航空汽油发展历史及研究进展

航空汽油的发展始于20世纪初,距今已经超过100年了。无铅航空汽油的发展也已经接近80年历史。本文论述了无铅航空汽油的发展历程,指明无铅航空汽油蜕变于车用汽油,主要从低辛

期刊

无铅航空汽油发展历史技术指标研究进展

姐妹们的贴心人

她曾经为了一个老大妈被儿女虐待致死案,冒着风险坐拖拉机入村,一整天调查取证,饭都没顾上吃,终使3个不孝儿女被绳之以法;她曾经用自己的存折为前铺村杨桂梅、韦子峪村裴玉芬

期刊

调查取证抵押贷款下岗女工拖拉机种养业县领导儿女虐待

螯合凝胶的制备及其从水溶液除镉性能研究

镉污染是当今重金属污染中面积最广、危害最大的重金属元素之一,对水体镉污染处理方法的研究也一直是热点研究课题。本文研究了依据Mannich反应,以聚丙烯酰胺凝胶(PAM-Gel)为

期刊

聚丙烯酰胺凝胶三乙烯四胺接枝除镉

经不同给药途径治疗癌痛的临床观察及护理干预

目的观察吗啡控缓释片与芬太尼贴剂经不同给药途径治疗中重度癌性疼痛的疗效及不良反应。方法回顾分析吗啡类控缓释片和芬太尼贴剂经不同给药途径治疗中重度疼痛327例患者的

期刊

吗啡控缓释剂芬太尼贴剂临床观察护理干预controlled sustained agents of morphine Fentanyl paste

基于Spark计算框架的分布式文本分类方法研究

与本文相关的学术论文