基于Spark的K-means安全区间更新优化算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:orallove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
每次K—means算法更新聚类中心后,会对数据集中所有的点迭代计算它们与最新聚类中心的距离,进而获取点的最新聚类。这种全局迭代计算的特征导致传统K—means算法时间效率低。随着数据集增大,算法的时间效率和聚类性能下降过快,因此传统的K—means算法不适合大数据环境下的聚类使用。针对大数据场景下的时间效率和性能优化问题,提出了一种基于Spark的K—means安全区间更新优化算法。在每次更新聚类中心后,该算法更新安全区间标签,根据标签是否大于0每次判断落在该区间内的全部数据的簇别,避免计算所有点与中心的
其他文献
研究了“核-壳”结构的ACR对PBT/PC(质量比80/20)合金的力学性能和耐热性的影响。结果表明:随着ACR用量增加,共混物的缺口冲击强度不断增大,而拉伸强度、弯曲强度、维卡耐热
<正>农民工市民化是解决我国农民工问题的根本途径,是进城农民工的根本出路。迟福林委员提出"十二五"期间要让"农民工成为历史",这是令人十分振奋的目标要实现这一目标,势必
<正> 我们在电视新闻和报刊上曾不止一次地见到过这样的报道:某城市地下施工,挖坏地下的煤气管道,煤气外泄,危机四伏;某施工队挖断污水管道,秽物横溢……,等等。查找原因,多
东秦岭泥盆系分布区以北依次排列着丹凤群、秦岭群、宽坪群三套变质地层,之间被两条区域性大断裂所隔开。这三套地层沉积后均经历了三次强烈的褶皱、三次区域变质及三次韧性剪
净现值法作为一种基本的投资决策方法,更符合企业财富最大化的假设及长期发展目标。在实际应用中,净现值有时会使公司的投资决策预期与实际结果产生很大的偏差。运用风险累加
<正>沙企社区位于宝安区沙井街道中心区,总面积0.78平方公里,社区总人口13264人,户籍人口1255人,党员31人。辖区内主要有政府机构和外驻单位22个,居住小区5个、购物广场3个、
设计并制作了一款以AT89S51单片机为主控制器,使用霍尔传感器进行自行车里程/速度测量的装置。这种装置通过检测霍尔传感器在一定时间内自行车轮胎旋转圈数,再利用软件编程将
介绍了PVC增塑剂的增塑原理、选用原则及基本性能,并讨论了具有低温性、光热稳定性及阻燃性的增塑剂对PVC制品性能的影响,提出了增塑剂的发展趋势。
根据1985年和1995年的二期遥感图像,通过遥感和地理信息系统空间分析方法以及数量统计方法,研究了1985—1995年长江三角洲地区的土地利用变化情况,揭示了该地区各类土地利用
结合我国的实际生产线,对甲基纤维素及羟丙基甲基纤维素的制造工艺进行了总结和评述,在此基础上对如何提升甲基纤维素及羟丙基甲基纤维素的制造工艺进行了探讨和研究,并提出