【摘 要】
:
针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题,提出了一种基于Hadoop平台的并行CK-means聚类算法,该算法采用Canopy算法和余弦相似度度
【机 构】
:
内蒙古科技大学信息工程学院,神华乌海能源西来峰煤化工公司
【基金项目】
:
国家自然科学基金资助项目(61562065),内蒙古自然科学基金资助项目(2015MS0622,2016MS0609)
论文部分内容阅读
针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题,提出了一种基于Hadoop平台的并行CK-means聚类算法,该算法采用Canopy算法和余弦相似度度量来改善K-means算法在确定初始聚类中心的盲目性,采用并行计算框架对算法并行扩展,使之能够适应海量数据处理.实验表明,基于Hadoop平台的CK-means并行算法具有更好的聚类质量,在处理海量数据时具有良好的加速比和可扩展性.
其他文献
摘 要:文章主要针对高速并行总线接口信号问题进行研究,首先提出高速并行总线互连设计以及信号完整性相关概念在此基础上提出引起信号不完整的发射、串扰、同步开关噪声以及码间干扰,针对这些问题提出优化策略。 关键词:高度并行总线;接口信号;完整性;优化 1 高速并行总线接口信号完整性概述 1.1高速并行总线互连设计技术 当今信息技术的发展,促进了电气性能的提高与高速发展,电气封装和互连对于信号而言
基于光伏电源与市电互补的自助充电装置,由太阳能电池板、控制器、蓄电池、逆变器、电压检测切换模块、支付模块和负载组成。光伏发储电部分和自助充电部分为本装置的核心,本
在开发智能终端技术与应用专业指导方案中,文章通过深入调研,对本行业的人才培养结构现状和人才需求情况有了进一步的了解,深入掌握了企业相关岗位设置情况和工作任务,分解职
以内蒙古自治区白云鄂博风电场1.5MW锥筒型风力发电机为原型,利用ANSYS软件建立了切出风速、暴风风速两种工况下锥筒型风力发电机的三维风场模型,通过CFD数值模拟计算出风流经风
文章探讨了案例教学法在Flash教学应用现状与问题,提出了一种基于理论关联和感官关联的案例设计思路,并进行了具体案例设计。课堂教学表明,该方法对提高学生实践动手能力,激发学生学习兴趣等方面有很好的效果,为Flash教学进一步实现全方位多维度案例教学改革提供新思路。
"电力系统基础"是高等教育电力系统自动化方向的一门重要专业课程。文章对互动型教学模式进行了探索,从场景设计、交流互动和在线学习等方面对教学流程进行了设计,构建了以互