Flink下的K-Means优化并行与任务调度研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:JC1220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-Means作为机器学习算法的典型代表,在大数据背景下的应用十分广泛,但其存在随机选取初始质心导致的局部最优解、大数据规模下迭代次数多、计算耗时长、准确率低等问题。在大数据背景下,基于大数据计算框架的机器学习算法优化与应用研究已成为研究热点问题,当前很多大数据计算框架都包含机器学习库,且随着实时搜索引擎、社交软件等应用的出现,数据实时处理日益成为学者们的研究热点,传统的先存储后计算的批量计算理念已经不再适用于实时流数据的处理,因此如何构造高吞吐、低延迟的大数据流式计算框架成为亟待解决的关键问题。基于上述存在的问题,本研究从基于Flink平台的K-Means算法的优化、并行化加速以及Flink平台的任务调度策略方面进行研究。具体研究内容可概括如下:(1)为解决大数据规模下K-Means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-Means聚类优化及并行策略。从算法优化层面,采用Canopy算法确定聚类数目k并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-Means的并行加速策略,并分析不同并行度对计算耗时的影响。经试验,相较K-Means算法,CK-Means算法的准确率与迭代次数间的比值更高,算法性能更优;不同并行度下的CKMeans算法的聚类耗时呈现先下降后上升的趋势,其聚类耗时的最小值与数据集的大小相关。(2)为提高K-Means算法的聚类速度和准确率,提出了基于k-d树分区的K-Means并行化加速策略。从算法优化层面,选择数据集中相距最远的k个点优化初始质心;从任务并行化加速层面,提出k-d树分区算法对数据集进行划分并实现任务并行化;从执行环境并行化加速层面,设置不同进程数目与CPU核数验证F-KMeans的加速效果。(3)为了提高Flink计算框架的资源利用率,提出了基于Flink流式计算环境下资源感知任务调度策略。针对Flink平台下先来先服务任务调度算法忽略了任务资源需求与节点可用资源之间的关系,导致不同节点任务负载不均,从而影响系统吞吐量的问题,提出了基于Flink流式计算环境下资源感知任务调度策略。首先,以GlobalState模块监测的资源数据为依据,考虑任务资源需求与节点可用资源间的匹配关系,提出一种任务选择算法与节点选择算法选取待执行任务与最佳调度节点;其次,通过资源感知调度策略把待执行任务调度至最佳调度节点;最后,通过设计实验验证了算法的有效性。
其他文献
网络社会是指网络行为主体之间、网络行为主体与网络软硬件要素之间相互作用而形成的与现实社会密切联系又相对独立于现实社会的虚拟生态系统.网络社会作为人类生存的第二空
随着新课程改革的不断深入,我国教育教学开始迈向了新的阶段。对教学的关注也在日益增加,提出了诸多关于我们高中生教学的理论,总结了一系列影响教学的因素。首当其冲的则是
目的观察艾灸配合穴位敷贴对急慢性肠炎患者护理的应用效果。方法选取本院2014年1月~2017年1月诊治的急慢性肠炎患者60例,随机分为观察组及对照组各30例。对照组患者使用氟哌
考虑新能源日益增长的不确定性,概率能量流在电–气综合能源系统分析中起到关键性作用。概率能量流计算需要求解大量高维非线性方程组。高计算代价和求解时间已成为概率能量
文章介绍了大气电场仪的标定原理及意义,采用ANSYS软件对大气电场仪标定系统进行仿真分析,依次分析了板间距离、探头位置和电场边缘效应对静电场环境的影响,为标定系统的设计
玻璃瓶在包装行业中占有很大的比重,但在制造过程中经常会出现裂纹、破裂等缺陷,而传统的人工检测效率低、成本高,因此研究开发玻璃瓶自动检测的技术是十分必要的。机器视觉技术
针对低质量文档图像受墨迹浸润、页面污渍、背景纹理或光照不均等因素的影响,提出一种基于支持向量机(SVM)的低质量文档图像二值化方法。该方法对文档图像进行分块,并增强每
笔者自2013年4月至2015年3月运用吴茱萸贴敷涌泉穴联合耳穴压豆法治疗中老年骨科手术前失眠患者76例,临床疗效满意,现报告如下。1一般资料76例患者均是绍兴市人民医院骨科住
消防工作是城市发展的基础保障。近年来国内城市消防装备及消防信息化建设取得了快速的发展。城市消防远程监控系统要实现的功能是利用联网集中的技术思想,将分散在各个建筑内
高速公路在进行信息化建设的过程中,实现了管理和服务的智慧化,在这期间有涉及到物联网技术和云计算技术,此外在信息化建设中还会涉及到移动通信网络相关技术,这些技术提高了