一种基于MapReduce的贝叶斯海量文本并行分类算法

来源 :肇庆学院学报 | 被引量 : 0次 | 上传用户:money51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量数据带来的冲击,传统的单机版贝叶斯分类程序存在处理的数据集有限、内存瓶颈和耗时较长等问题.本文通过对朴素贝叶斯模型进行研究,设计并实现了一种基于Map Reduce的朴素贝叶斯文本分类算法.实验表明,该算法具有较好的扩展性和加速比,可适用于海量密集文本分类.
其他文献
本文从二十世纪现代派作家的作品人手,透视了意识流小说以内心独白为特征的艺术效果;从修辞技巧,形式,及诗歌的审美原则等几个角度论证了意识流小说的叙述形式具有明显的诗歌
文章介绍了八钢烧结环冷机余热回收系统采用了新型环冷机密封技术, 通过优化生产工艺控制参数,烧结余热回收系统的蒸汽回收效率和发电量大幅提升, 取得了较好效果.对环冷机密
喷水减温器的运行情况是影响电站锅炉安全经济性的主要因素之一。结合420 t/h锅炉再热器微量喷水减温器及连接管弯头、高温再热器入口联箱与1025 t/h锅炉再热器微量喷水减温
<正>或许从公关战略的层面看,高通应该反思,在产业友好度及和谐度上自己究竟做过什么在引人瞩目的美国芯片商高通公司反垄断调查满一年之际,该案的调查终于尘埃落定。除吸引
无菌药品按生产工艺可分为2类:最终灭菌产品采用最终灭菌工艺;非最终灭菌产品采用部分或全部工序无菌生产工艺,无菌药品的生产必须严格按照规程进行,产品的无菌或其他质量特
非刚性点集配准研究是模式识别领域的一项重要基础研究.本文在当前流行的非刚性点集配准算法的基础上提出了两个主要贡献:1)模糊形状上下文(Fuzzy shape context, FSC)特征;2
分析了当前高校财务工作中存在的有关问题,提出了编制高校财务预算的有关原则及搞好高校财务预算工作的对策。
目的通过漏斗实验,帮助学员建立质量体系系统轮廓、了解系统改进的基本方法。方法基于实验操作方法、教学要求和现有条件进行课程设计,构建包含问题呈现、常见干预、系统调整
带钢张力的准确测量对冷轧生产线连续、稳定、高效的生产起着十分重要的作用.张力计是张力测量最直接、最准确的工具.本文结合冷轧连退现场实际情况,对ABB高精度张力计从测量
以收音机外壳的注塑模具设计为实例,利用Moldflow软件进行注塑成型分析。并根据分析结果,利用UG软件对收音机外壳注塑模具结构设计。这种设计方法减少了试模次数,降低了开发成本