基于Spark 云计算平台的改进K近邻算法研究

被引量 : 9次 | 上传用户:cmudh134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现今时代信息的飞速发展,互联网已经步入大数据时代。在面对海量的数据,用户如何快速找到满足自己需求的信息成为学术界急需研究的热点难题。互联网海量数据导致数据挖掘技术要求变得越来越迫切。通过数据挖掘方法,系统可以实现从海量数据高效挖掘出精准数据。数据挖掘中的分类算法是预测数据趋势、推荐迎合用户意愿数据的有效手段。K近邻分类算法又是查询大规模空间数据的常用数据挖掘分类算法之一。算法在云计算平台运行,可以进一步提高数据挖掘算法的运算速率。Spark云计算平台是基于Hadoop云平台的进一步优化,不同于Hadoop的完全依赖HDFS文件系统,Spark实现了在内存中处理数据集,进一步提高了云平台的数据处理速度。针对用户快速获取信息的需求,本文在Spark云计算平台上,使用并行化的改进K近邻分类算法实现为用户快速提供推荐数据的目标。本文提出两个优化点:第一,本文对K近邻分类算法索引创建技术进行改进,提高算法查找最近邻数据点的效率。传统的K近邻分类算法主要制约因素是查找最近邻数据点效率低,Kd Tree是应用于K近邻分类算法索引创建的查找效率较高的数据结构。影响Kd Tree的运行效率主要在于算法运行过程最近邻节点查找中对非叶子节点的回溯。本文通过优化Kd Tree中待分类数据点范围与分割平面线的相交概率,减少K近邻分类算法在查找最近邻数据点时回溯节点的数目,实现提高K近邻分类算法的分类效率。第二,本文优化算法运行的环境,实现了提高算法分类效率的效果。本文对改进的K近邻分类算法实行并行化,使算法能很好的适应云计算平台的数据处理模型。本文使用Spark云计算平台环境实现并行化的改进K近邻分类算法,在保证算法准确度的前提下,提升了算法的分类速度。在实验数据选取上,本文选用了UCI机器学习数据集。实验对比单机情况下传统K近邻分类算法和改进K近邻分类算法的效率和准确率、Spark云平台上改进K近邻分类算法和单机上改进K近邻分类算法的算法处理效率,得到在Spark云平台运行的改进K近邻分类算法,在保证算法分类准确率的前提,较大的提高了算法效率的结论。
其他文献
目的:分析比较多层螺旋CT低剂量扫描和传统方法扫描应用在女性骨盆检查中的应用效果。方法:选取2010年6月-2011年12月在笔者所在医院实施盆骨扫描的50例女性受检者,将其分为
目的:探析肝硬化合并难治性肝腹水患者实施回输浓缩超滤腹水疗法的临床效果。方法:入选笔者所在医院肝硬化合并难治性肝腹水患者62例,按随机数字表法分为观察组和对照组,各31
目的:探讨清热解毒,凉血宣肺类中药配伍结合西药抗生素等治疗小儿重症肺炎的疗效。方法:45例小儿重症肺炎在常规治疗上随机分为两组,对照组15例,常规西药治疗加肝素治疗;治疗
科技在我国社会经济发展中的作用日益突出,在科研企业开展财务信息化建设,是新形势下加强科研企业财务管理的迫切要求。ERP的应用,有助于提高科研企业财务信息化的质量,提升
进入21世纪之后,中国与美国频繁地在钢铁贸易领域出现争端,本文以中美钢铁贸易摩擦为研究对象,分析中美钢铁贸易摩擦对我国钢铁出口以及钢铁行业竞争力的影响,实证结果表明中
<正>胎儿透明隔腔(cavum septum pellucidum,CSP)是产前影像学检查观察的重要结构之一,CSP异常提示胎儿可能存在中枢神经系统异常。本研究选择2011年10月1日至2012年9月30日
以改良的异硫氰酸胍-苯酚-氯仿法从真核细胞中制备RNA,经琼脂糖微电泳检查,可清楚见到三条真核细胞核糖体RNA带(28S,18S,和5S);经Norther blot检测可见未降解的1.9Kb肌动蛋白
目的:了解抗菌药物对血-胎盘屏障的穿透性和其在乳汁中的分泌。方法:采用微生物法或高效液相层析法对妊娠妇女和哺乳期妇女进行了13种抗菌药物的组织体液浓度测定。结果:甲硝唑、氧
讨论“中国共产党婚姻理论及其实践”这一问题的基本前提是:婚姻是一种社会化、规范化的两性选择,既有个体隐私性,又有社会公开性,公权力的适当介入已是基本共识。本论文所要
[目的]探讨提高成人护理学教学质量、加强学生综合能力的培养、培养创新型护理人才的有效途径。[方法]对成人护理学课程从丰富教学方法、强化实践教学、多元化考核方式几方面