基于Hadoop平台的K-means算法优化综述

来源 :软件导刊 | 被引量 : 0次 | 上传用户:u482366
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技高速发展的今天,海量数据处理问题受到人们广泛关注。将K-means聚类算法与Hadoop平台相结合是处理海量数据问题的一条可靠途径。简单介绍Hadoop和K-means算法以及K-means聚类算法MapReduce并行化实现,并阐述目前Hadoop平台下K-means算法的几种优化方式,最后提出研究展望。
其他文献
研究神经内分泌系统肾上腺激素的调控性能问题,提出了一种新颖的智能无模型自适应控制器(IMFAC),并给出了控制参数的调整方法。智能控制器有两级控制体系结构,一级控制器依据肾上腺素分泌规律,根据实时控制偏差动态调整二级控制器的控制参数,二级控制器采用无模型自适应控制器(MFAC),从而提高了MFAC的稳定性和自适应性。仿真结果表明:相对于PID控制器,IMFAC控制器具有较好的快速调节能力和稳定性。
在无线网络传感器节点覆盖优化问题的研究中,网络的生存期是WSN发展的一个障碍,降低能耗是WSN设计的一个方向,在性能得以保障的前提下,以最少的节点的移动投入工作是节能的有效方法,在目标区域中寻找最优的栅栏网格最小移动距离和是一个NP问题,为此提出了近似算法,即首先将狭长的目标区域分解成规则子区域,在每个区域实现CBMS算法,为了避免漏洞出现,在相邻的区域和右边界生成隔离栅栏。仿真结果表明,算法能够
为了有效地应用最小二乘有限元法求解层流和湍流问题,获得高精度的数值结果,传统的速度-涡量-压力方法精度低,因此提出速度-应力-压力的新方法。通过采用牛顿线性化方法和预处理共轭梯度法,最终实现了应力形式NavierStokes方程的求解。后台阶流和圆柱绕流的计算结果与实验结果比较表明,与有限体积法相比,最小二乘有限元法的计算结果与实验结果更加接近;与此同时,速度-应力-压力形式的计算结果比传统速度-
针对某静音型电源车车舱结构及其通风散热特点,建立了车舱内部计算流体力学(Computational Fluid Dynamics,CFD)仿真模型,通过设置各类解析条件,分别利用Standardk-ε,Realizablek-ε,Standardk-ω和SSTk-ω四种湍流模型仿真模拟了车舱内流场和车载柴油发电机组的温度场,并分别测试了两条垂直线的风速对流场仿真结果进行了评价,测试了柴油发电机组和
PDF是一种可移植文档,具有许多优点。随着PDF应用的普及,PDF中隐私数据的保护也变得非常重要。针对PDF表单文本字段提出了数据加解密方法。基于Acrobat工具,结合Javascript事
无人值守网络协同通信资源分配在通信领域拥有极为广阔的应用空间。无人值守网络协同通信资源分配通常都是以通信效率最高和资源利用率最高为目标进行资源分配的,没有考虑无人值守网络特有的通信连续性,传统的资源分配方法的目标函数没有考虑后续通信过程中的需求。导致通信资源在长时间段内的利用率降低,降低了有人/无人值守网络协同通信的效率。为了避免上述传统算法的弊端,提出采用信息素搜索算法的无人值守网络协同通信资源
近年来受到了国内外学者广泛关注的压缩感知技术,在突破Nyquist采样理论的同时,为信息安全提供了一种新的加密机制。为了避免密钥过大和消耗问题,将混沌参数作为密钥,通过控制参数映射生成观测矩阵和加密控制矩阵。利用观测矩阵对原始图像在稀疏基进行观测,再用加密控制矩阵对观测值的比特面进行置乱。解密过程为置乱算法逆运算和压缩感知的重构算法。实验仿真表明,该方法具有良好的加密抗攻击特性,且能在加密图像的同
研究基于广分布多节点网络系统下的多媒体访问实现,现代多媒体资源的表现形式越来越丰富,资源容量越来越大,这对多媒体资源在现有网络技术条件下的传播提出了更高的要求。传统的多媒体资源终端访问采用网络计算机的方法,无法在便携式的终端设备上实现多媒体资源的有效控制,所以对多媒体资源的广泛应用造成了影响。为解决上述问题,提出一种基于分布式网络的多媒体资源终端访问系统,采用分布式系统,将系统节点分布在网络的各个
针对目前三维人脸模型的语义标记和分割研究较少的问题,提出一种基于正方形切平面描述符的三维人脸模型区域标记算法。这种新的描述符由三维人脸模型顶点的正方形切平面区域内的几何信息编码而成。随后通过随机森林算法对其进行学习,对模型上的所有顶点进行分类,从而实现对三维人脸模型上眉毛、眼睛、鼻子、嘴巴等区域的识别和标记。在定位仿真实验中,分类准确率可达94.46%。该描述符具有旋转、头部姿势与三维模型分辨率不
提出一种新的基于水平集的图像分割方法,通过引入贝叶斯规则,设计一个可有效分割弱边缘的非线性自适应速度和概率加权停止函数。该方法包含如下特性:可以自动决定曲线收缩或利用贝叶斯规则对涉及到的图像区域特征进行扩展;以恰当的速度驱动曲线演变,避免了弱边缘的遗漏;降低了假边缘的影响。最后将所提出的分割方法应用于人工图像、医学图像和自然图像的定性和定量评估。对结果进行比较可知,该方法相对于水平集方法和其代表的