面向大规模数据快速聚类K-means算法的研究

来源 :计算机应用与软件 | 被引量 : 18次 | 上传用户:wjh75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中心,改善了传统聚类算法依赖初始中心的问题。实验结果表明该算法有效提高了聚类质量和执行效率,适用于对大规模数据的聚类分析。
其他文献
梧高凤必至,花香蝶自来。中国张家口再一次聚集了氢能产业的“佼佼者”,引领“氢梦想”蓄势待发。2018年11月15-16日,以“协同发展,推动能源革命”为主题的第一届中国张家口
<正>~~
期刊
本文采用Feynman的路径积分量子化方法,计算出两个平行的,理想的金属线之间在绝对零度下量子电磁场对Casimir力的前二级贡献,即自由电磁场与有质量的费米子单圈图的贡献。
马铃薯为陕西商洛市的主要经济作物(以下简称洛薯),为切实提升洛薯的种植效益,作为基层的农技服务站,需要切实注重优质高产洛薯栽培技术的推广和应用。尤其是在新冠肺炎疫情
5月25日,公司举行脱钩改革交接仪式。市经济和信息化委员会(国资委)副主任杨富进,接收组组长李树军、副组长韩亮,市交通运输局副局长卢四海、总会计师贾文革、综运科科长王德强、
根据夹片的结构特点,设计出基于CKM6125本体的夹片车外锥自动化装置;整个装置由料斗进给装置、整列装置、分离机构、送料机构、卸料机构组成,设计及校核过程进行过详细的运动
黄瓜是人们日常食用蔬菜,因营养丰富广受喜欢。我国北方因气候原因,黄瓜种植主要以温室种植为主,为了提高温室黄瓜产量,需要对温室黄瓜高产种植技术进行研究。文章从温室建设
因为APEC,因为中国,南太明珠巴布亚新几内亚成了世界关注的焦点。11月15日至18日,习近平主席在巴新首都莫尔兹比港停留4天3晚,对巴新进行国事访问,同建交太平洋岛国领导人会
目前基于到达时间差(Time Difference of Arrival,TDOA)的无线定位算法既不能在基于距离平方差(Squared Range-Difference,SRD)的误差平方和最小模型中获得总体最小二乘准则下的全局最优解,也不能在基于距离差(Range-Difference,RD)的误差平方和最小模型中获得普通最小二乘准则下的全局最优解。将泰勒级数法与约束总体最小二乘法(Const
文章主要从安装工法角度介绍了地铁防雷接地网的安装方法、施工顺序、施工要点和施工中的注意事项。