基于Hadoop平台的K-means聚类算法优化研究

来源 :内蒙古科技大学学报 | 被引量 : 0次 | 上传用户:yeshenshi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题,提出了一种基于Hadoop平台的并行CK-means聚类算法,该算法采用Canopy算法和余弦相似度度量来改善K-means算法在确定初始聚类中心的盲目性,采用并行计算框架对算法并行扩展,使之能够适应海量数据处理.实验表明,基于Hadoop平台的CK-means并行算法具有更好的聚类质量,在处理海量数据时具有良好的加速比和可扩展性.
其他文献
据海关统计数据显示,1~9月份我国稀土永磁材料共计出口1.27万吨,出口金额12.1亿美元。其中三季度出口稀土永磁材料4478.4吨,环比减少2.4%。
摘 要:文章主要针对高速并行总线接口信号问题进行研究,首先提出高速并行总线互连设计以及信号完整性相关概念在此基础上提出引起信号不完整的发射、串扰、同步开关噪声以及码间干扰,针对这些问题提出优化策略。  关键词:高度并行总线;接口信号;完整性;优化  1 高速并行总线接口信号完整性概述  1.1高速并行总线互连设计技术  当今信息技术的发展,促进了电气性能的提高与高速发展,电气封装和互连对于信号而言
基于光伏电源与市电互补的自助充电装置,由太阳能电池板、控制器、蓄电池、逆变器、电压检测切换模块、支付模块和负载组成。光伏发储电部分和自助充电部分为本装置的核心,本
在开发智能终端技术与应用专业指导方案中,文章通过深入调研,对本行业的人才培养结构现状和人才需求情况有了进一步的了解,深入掌握了企业相关岗位设置情况和工作任务,分解职
以内蒙古自治区白云鄂博风电场1.5MW锥筒型风力发电机为原型,利用ANSYS软件建立了切出风速、暴风风速两种工况下锥筒型风力发电机的三维风场模型,通过CFD数值模拟计算出风流经风
文章探讨了案例教学法在Flash教学应用现状与问题,提出了一种基于理论关联和感官关联的案例设计思路,并进行了具体案例设计。课堂教学表明,该方法对提高学生实践动手能力,激发学生学习兴趣等方面有很好的效果,为Flash教学进一步实现全方位多维度案例教学改革提供新思路。
带有疏水冷却段的高压加热器低水位运行使疏水管呈汽水两相流,是造成疏水管严重冲刷的主要原因,并定量提出了保持高压加热器一定水位运行,是解决疏水管严重冲刷的关键。
通过XRD、SEM对Al-Ce-Fe氧化表面形貌、晶化、成分进行研究,对氧化试样的横截面进行显微硬度测量,通过动电位极化扫描测试氧化膜的电化学耐蚀性.实验表明:非晶合金Al-Ce-Fe在5
文章分析了战略管理内涵及其影响因素及其资源构成,进而对新环境下企业战略管理存在的问题进行了简要的阐释,在此基础上,系统的研究了企业战略的一系列决定因素,并提出了相关
"电力系统基础"是高等教育电力系统自动化方向的一门重要专业课程。文章对互动型教学模式进行了探索,从场景设计、交流互动和在线学习等方面对教学流程进行了设计,构建了以互