Flink下的K-Means优化并行与任务调度研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户：JC1220

【摘要】

：

【作者】

：

汪丽娟

【出处】

：

新疆大学

【发表日期】

：

2019年12期

【关键词】

：

Apache Flink 流式计算性能优化聚类算法并行加速

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

K-Means作为机器学习算法的典型代表,在大数据背景下的应用十分广泛,但其存在随机选取初始质心导致的局部最优解、大数据规模下迭代次数多、计算耗时长、准确率低等问题。在大数据背景下,基于大数据计算框架的机器学习算法优化与应用研究已成为研究热点问题,当前很多大数据计算框架都包含机器学习库,且随着实时搜索引擎、社交软件等应用的出现,数据实时处理日益成为学者们的研究热点,传统的先存储后计算的批量计算理念已经不再适用于实时流数据的处理,因此如何构造高吞吐、低延迟的大数据流式计算框架成为亟待解决的关键问题。基于上述存在的问题,本研究从基于Flink平台的K-Means算法的优化、并行化加速以及Flink平台的任务调度策略方面进行研究。具体研究内容可概括如下:(1)为解决大数据规模下K-Means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-Means聚类优化及并行策略。从算法优化层面,采用Canopy算法确定聚类数目k并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-Means的并行加速策略,并分析不同并行度对计算耗时的影响。经试验,相较K-Means算法,CK-Means算法的准确率与迭代次数间的比值更高,算法性能更优;不同并行度下的CKMeans算法的聚类耗时呈现先下降后上升的趋势,其聚类耗时的最小值与数据集的大小相关。(2)为提高K-Means算法的聚类速度和准确率,提出了基于k-d树分区的K-Means并行化加速策略。从算法优化层面,选择数据集中相距最远的k个点优化初始质心;从任务并行化加速层面,提出k-d树分区算法对数据集进行划分并实现任务并行化;从执行环境并行化加速层面,设置不同进程数目与CPU核数验证F-KMeans的加速效果。(3)为了提高Flink计算框架的资源利用率,提出了基于Flink流式计算环境下资源感知任务调度策略。针对Flink平台下先来先服务任务调度算法忽略了任务资源需求与节点可用资源之间的关系,导致不同节点任务负载不均,从而影响系统吞吐量的问题,提出了基于Flink流式计算环境下资源感知任务调度策略。首先,以GlobalState模块监测的资源数据为依据,考虑任务资源需求与节点可用资源间的匹配关系,提出一种任务选择算法与节点选择算法选取待执行任务与最佳调度节点;其次,通过资源感知调度策略把待执行任务调度至最佳调度节点;最后,通过设计实验验证了算法的有效性。

其他文献

网络社会治理能力建设研究(专题讨论)

网络社会是指网络行为主体之间、网络行为主体与网络软硬件要素之间相互作用而形成的与现实社会密切联系又相对独立于现实社会的虚拟生态系统.网络社会作为人类生存的第二空

期刊

网络社会治理多中心协同治理专题讨论

如何开发高中生化学学习中非智力因素

随着新课程改革的不断深入,我国教育教学开始迈向了新的阶段。对教学的关注也在日益增加,提出了诸多关于我们高中生教学的理论,总结了一系列影响教学的因素。首当其冲的则是

期刊

高中生学习化学开发非智力因素

艾灸配合穴位贴敷对急慢性肠炎护理观察

目的观察艾灸配合穴位敷贴对急慢性肠炎患者护理的应用效果。方法选取本院2014年1月~2017年1月诊治的急慢性肠炎患者60例,随机分为观察组及对照组各30例。对照组患者使用氟哌

期刊

急慢性肠炎艾灸穴位贴敷护理

基于深度学习的概率能量流快速计算方法

考虑新能源日益增长的不确定性,概率能量流在电–气综合能源系统分析中起到关键性作用。概率能量流计算需要求解大量高维非线性方程组。高计算代价和求解时间已成为概率能量

期刊

概率能量流深度神经网络堆栈降噪自动编码器蒙特卡洛模拟法

大气电场仪标定系统的设计与仿真

文章介绍了大气电场仪的标定原理及意义,采用ANSYS软件对大气电场仪标定系统进行仿真分析,依次分析了板间距离、探头位置和电场边缘效应对静电场环境的影响,为标定系统的设计

期刊

ANSYS软件大气电场仪标定仿真

基于机器视觉的玻璃瓶在线检测系统研究与实现

玻璃瓶在包装行业中占有很大的比重，但在制造过程中经常会出现裂纹、破裂等缺陷，而传统的人工检测效率低、成本高，因此研究开发玻璃瓶自动检测的技术是十分必要的。机器视觉技术

学位

机器视觉玻璃瓶在线检测霍夫变换图像处理

基于支持向量机的低质量文档图像二值化

针对低质量文档图像受墨迹浸润、页面污渍、背景纹理或光照不均等因素的影响,提出一种基于支持向量机(SVM)的低质量文档图像二值化方法。该方法对文档图像进行分块,并增强每

期刊

低质量文档图像二值化支持向量机(SVM)局部对比度笔画宽度估计

吴茱萸贴敷涌泉穴联合耳穴治疗中老年骨折手术前失眠38例

笔者自2013年4月至2015年3月运用吴茱萸贴敷涌泉穴联合耳穴压豆法治疗中老年骨科手术前失眠患者76例,临床疗效满意,现报告如下。1一般资料76例患者均是绍兴市人民医院骨科住

期刊

吴茱萸涌泉穴耳穴疗法骨折手术失眠

城市消防远程监控系统软件的设计实施

消防工作是城市发展的基础保障。近年来国内城市消防装备及消防信息化建设取得了快速的发展。城市消防远程监控系统要实现的功能是利用联网集中的技术思想，将分散在各个建筑内

学位

城市消防远程监控软件

移动通信在高速公路信息化建设中的应用研究

高速公路在进行信息化建设的过程中,实现了管理和服务的智慧化,在这期间有涉及到物联网技术和云计算技术,此外在信息化建设中还会涉及到移动通信网络相关技术,这些技术提高了

期刊

移动通信高速公路信息化建设应用

Flink下的K-Means优化并行与任务调度研究

与本文相关的学术论文