基于Spark的改进K-means快速聚类算法

来源 :江苏大学学报(自然科学版) | 被引量 : 0次 | 上传用户:ZJWLMX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据环境下聚类算法所处理数据规模越来越大、对算法时效性要求越来越高的问题,提出一种基于分布式计算框架Spark的改进K-means快速聚类算法Spark-KM.首先针对K-means算法因初始聚类点选择不当导致局部最优、迭代次数增加而无法适应大规模数据聚类的问题,通过预抽样和最大最小距离相结合对K-means算法进行改进;然后对原始数据进行矩阵分割,并存储在不同的Spark计算框架的结点当中;最后根据改进的K-means算法,结合分布式矩阵计算和Spark平台进行大数据快速聚类.结果表明,文中算法可
其他文献
分析了混凝土泵车传统臂架连杆机构的运动链,提出了一种双油缸连杆机构.对该种连杆机构进行了几何建模,并把模型导入了有限元软件中进行了分析.分析结果显示:新型双油缸连杆机
一、梳理义务教育地理课程标准中与"位置"相关的内容标准根据义务教育地理课程标准,整理出与"位置"直接相关的内容标准,并根据行为动词分析应达到的认知水平,具体如表1所示。二、
首先对风力发电机内部元件的发热状态以及特性进行分析,并介绍了目前风力发电机对于机舱内部温度控制的主要措施以及因为温度控制问题出现的事故。提出一种通过两套循环系统对
教师专业发展是现代化教育发展的要求,也是实施科教兴国战略的现实需要。从教师专业发展的基本内涵、教师专业发展的重要性及教师专业发展的对策等三个方面,研究教师专业发展
蛋清蛋白是一种有着丰富的来源的优质蛋白质,目前对其研究主要集中在对其成分以及主要成分卵白蛋白性质的研究生上。因其具有良好的凝胶性能,在食品行业应用比较广泛。但作为
在2018年,中国科技行业会有怎样的大趋势?我个人的判断很筒单,用两句话来总结:中国公司,走出去;外资巨头,投进来.那么,如何理解这两个大趋势?中国公司,走出去 过去这两年来,我一
期刊
高速铁路桥梁声屏障与接触网立柱都安装在桥梁边缘,且相距较近,一般情况下都能够正常施工安装。但当接触网存在较大施工误差或设备尺寸差异时,常出现声屏障与接触网立柱下锚坠陀
思想政治工作是一切工作的生命线,也是搞好新时期高速公路运营管理工作的重要保证。如何在高速公路运营管理中加强思想政治工作,充分调动一线收费员的积极性,确保各项工作健
“一锅饭吃十个人”从字面意思上看,这个句子似乎不合逻辑。“饭”怎能吃“人”?但说汉语的人,都理解这句话的意思:“一锅饭吃十个人”意思是“一锅饭可供十个人吃”。语言学界已
智能城市体建设在当下城市发展实际中显得非常迫切。运用物联网与云计算技术构建的智能城市体发展,从技术层面为城市全面发展构建出了一个合理有效的框架,对各种信息进行高效收