【摘 要】
:
为解决传统聚类算法K-means在处理海量数据聚类时对初始中心点的选取十分的依赖,容易得到部分最优而非全局最优的聚类后果,提出了一种基于Spark改进的聚类优化DMCK-means算法
【机 构】
:
北京信息科技大学计算机学院,北京信息科技大学信息管理学院
【基金项目】
:
国家自然科学基金资助项目“网络零售交易风险动态评估及预警研究”(71571021)
论文部分内容阅读
为解决传统聚类算法K-means在处理海量数据聚类时对初始中心点的选取十分的依赖,容易得到部分最优而非全局最优的聚类后果,提出了一种基于Spark改进的聚类优化DMCK-means算法。DMCK-means算法首先应用密度法排除孤立点和噪声点使初始聚类中心选取趋于最优化;采用Canopy算法和最大最小距离原则,粗略聚类降低运算规模同时避免中心选取的盲目性。实验结果表明:该改进算法不仅降低了对初始聚类中心点选取的依赖,而且降低了聚类的时间,具有良好的扩展性和可行性,在处理大规模海量数据时能展示出较大的优势。
其他文献
<正> 本文从固定资产生产和再生产的角度来探讨全民所有制企业所有权和经营权之间的关系。 (一) 我们先回顾一下资本主义企业的所有权和经营权之间关系的演变过程。
A企业是中部地区做保鲜奶起家的城市型乳企,他们的新品PET瓶装果乳饮料在前期上市招商时取得了较大的成功——首次招商经销商打款接近100万元,成功签约25家经销商。但是在产品
瓶装水产品“就低不就高”经销商对瓶装水的关注达到了38%,主要是因为2005年瓶装水着实“火”了一把,很多经销商对今年瓶装水市场的预测是稳中有升,他们除了看好瓶装水的市场潜力
二维彩色条码采用不同颜色、不同数量色块的排列组合来对信息进行编码,其已经被广泛应用于物品溯源、防伪认证等领域。本文提出一种二维彩色条码图像的生成与识别算法。此方法先利用Matlab的图形用户界面(GUI)编程实现二维彩色条码图像的生成,产生标准的二维彩色条码图像。然后,提出一种结合边缘检测与最近邻分类思路的二维彩色条码识别方法。在一系列标准和拍照所得二维彩色条码图像上的实验结果证实了本文方法的有效
2007年11月4日到10日之间.衡水老白干股份有限公司组织了200多名经销商一起赴越南旅游。在衡水老白干公司高层的带领下,经销商们分别在越南的旅游景区——世界自然遗产下龙湾以
2007年11月底,全国轻工行业先进集体、劳动模范和先进工作者评选工作揭晓,湖北稻花香集团副总经理刘运湘榜上有名,荣获“全国轻工行业劳动模范”珠荣。
<正> 一,问题的提出 价格刚性问题是人们从物价水平的运动中认识的。古今中外大量的价格史料表明,物价水平运动的总趋势是稳中有升。有关实证材料如下:
随着2002年肖尔布拉克老陈酒的热销,肖尔布拉克在乌鲁木齐市场的销量有了突飞猛进的增长。与此同时,企业开始跃跃欲试向中高档市场迈进。这不得不让作为新疆白酒“老大哥”的伊
工程项目按照确定的建设内容、建设规模、建设标准、使用要求和功能要求等全部建成并验收合格交付使用所需的全部费用即为工程造价。而对造价形成过程中的一切费用进行严格的
<正> 创造性思维,就是人们为了达到对思维对象的认识或达到指导新的实践活动而产生的活跃思维。从广义上说来,思维都具有一定程度的创造性。但是,它并没有解决从已有的材料出发的思维会导致错误结果的问题,以及思维在指导实践中也会出现错误的行动等问题。它又分不清我们面前展现出来的一幅错综复杂的情景:正确的思维具有创造性的意义,但正确的思维并不都具有创造性的价值;错误的思维不具有创造性思维的内