基于Hadoop的分布式聚类算法研究

来源 :山东理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:Xinigami
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于工业领域广泛用到的Hadoop分布式计算平台,使用Canopy+K-means算法对手写数字进行聚类研究.针对传统Canopy算法初始阈值的确定问题,引入“最大最小化原则”确定初始阈值,计算得到K-means算法所需的初始聚类中心点.实验结果表明,Canopy算法能够较大程度地提高K-means算法的正确率.
其他文献
主要研究环R=F2+vF2+v^2F2上线性码的深度分布及其深度谱,其中v3=v.基于在环R上的线性码与它们的生成矩阵研究,可以获得在有限域F2上的线性码C1,Cv,Cv2与它们的生成矩阵.利用线
现实世界中的数据挖掘经常涉及从类别分布不平衡的数据集学习,少数类的数量相比于其他类较少.从包含少数类的数据集中学习,通常会产生偏向于多数类的预测分类器,但对少数类的
马铃薯耐贫瘠、耐干旱,在很多其他作物不适合栽种的土壤环境中,马铃薯都有获得高产的潜质。脱毒马铃薯种薯是采用生物工程技术培育出的马铃薯品种,与传统马铃薯种薯相比,具有
玉米为本地常栽种作物,肥料需求量大。而且,不同时期玉米需肥需求量各不相同。由此,玉米用肥直接关系到玉米产量的提升。这些年,为提升玉米产量,地方上频繁出现盲目用肥的现
对约束优化问题给出了一类光滑罚函数,它是根据一类光滑逼近精确罚函数的光滑函数而提出来的,并基于这类罚函数给出了罚算法.在很弱的条件下,建立了光滑罚算法的一个摄动定理
运用ESDA和自相关指数方法,结合山东省十七城市2004-2013年人口和GDP数据,探索山东人口和经济空间分布特征动态演化规律,分析人口、经济空间集聚差异的原因.结果表明:山东省十
从旅客的全出行过程分析了综合运输客运枢纽的旅客换乘流线和换乘特征,提出了基于全出行过程的“路径—方式”分配模型和枢纽车站的换乘量预测方法.从全路网来看,换乘布局影
主要论述了伴有状态和控制独立噪音的无限离散时间系统的带马尔科夫跳的随机线性二次控制问题.该问题给出了一个包含等式和不等式约束的广义代数黎卡提方程(GARE).跳变不定线性
针对矿山采空区具有极大危害性的问题,引入了采空区可靠度概念,介绍了国内外学者对于采空区可靠度的研究.利用霍克布朗准则,建立采空区矿柱稳定状态下的极限方程,引入区间理