云环境下的数据分类算法改进研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zxy86983028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,社会日益信息化电子化。商务、医疗、气象、天文等各色各样的领域都累积了大量的数据,人们日常生活中即使只是简单的衣食住行也会产生海量的数据。单纯的数据积累是不会带来任何价值的。但是利用特定的技术对大规模数据进行处理,即便是简单的分类整理,也可能使大数据呈现有趣的规律。再利用相应的搜索、识别等技术,极有可能发现获得其中蕴含着的数据宝藏。数据挖掘这一门学科就是随着大数据的产生而兴起的,数据分类算法作为该领域的重要一环,具有极高的学习价值和极强的实际意义。本文深入研究了几种典型的分类算法,分别是K-最近邻算法、朴素贝叶斯算法、支持向量机算法。在算法研究过程中,不可避免地遇到了单机处理大量数据带来的速度瓶颈,需要向分布式计算寻求对应的解决办法。云计算平台作为存储和处理海量数据的超级容器,成为数据分类算法的最佳载体。本论文提出云环境下数据分类算法的改进,主要针对KNN、NB、SVM算法改进,使其适应Hadoop平台数据处理框架,成为符合实际应用的文本分类平台。本文搭建的分类平台充分考虑了传统分类算法的主要特点,以及前沿云计算平台技术的优势,取长补短进行技术结合。平台的整体框架包括文本预处理模块、数据训练模块和测试模块,完成了中文分词、去停用词、文本特征表示、算法并行化功能。最后通过仿真实验,表明该分类平台实现了算法性能的提升,大大缩短了数据分类的时间。尤其是在数据量非常大的情况下,体现了更高的分类精度和更大的数据处理速度优势。
其他文献
<正>课堂上,教师提出问题的角度、层次和要求直接影响到学生思维能力的形成.初中数学总复习教学中的拓展型问题,就是在特定图形背景下设置动点,再将数学习题按考查知识点的多
河南祁雨沟金矿位于秦岭造山带最北部,属典型的角砾岩筒型成矿系统。矿区16号角砾岩筒下伏斑岩体锆石的εHf(t)值为-10.50~-14.43,Hf模式年龄为2.57~2.93Ga,表明花岗斑岩主要来源
随着互联网在全球的普及以及应用范围的不断拓宽,互联网金融应运而生,依托于互联网技术的发展,网上银行、手机银行、移动支付、余额宝、蚂蚁金服等金融创新业务在中国大地蓬
针对广深铁路13.56 M RFID单程票存在的不足,结合目前单品级UHF RFID的发展现状,从技术性能、安全保密、成本控制等方面分析广深铁路单程票采用UHF RFID的可行性;在广深AFC实
教育信息化一直是我国教育改革和发展的一个重要目标,也是教育现代化的基础和条件。2001年,面向中小学校的“校校通”工程在全国范围内正式启动。
非线性泛函分析是应用数学中有深刻理论和有广泛应用的研究学科,以数学和自然科学中出现的非线性问题为背景,建立了处理非线性问题的若干一般性理论和方法.分数阶微分方程理
随着股权分置改革的深入及“国九条”的发布,以公司价值为基础、以创造价值为核心、以价值最大化为目标的市值管理逐渐成为上市公司的关注领域。而近年来愈加频繁的上市公司
本文认为,韦伯社会学类型的建立,是与他著名的方法论概念“理想类型”的形成一致的,社会学由此找到了属于自己认识现实的独特方法和角度。文章侧重对“理想类型”方法的早期