基于Hadoop的并行优化方法及其在人脸识别中应用研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:dfw002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,如何高效地从人脸图像大数据中挖掘出有价值的信息,已成为研究热点。云计算、分布式计算的飞速发展,给视频处理、语音识别、机器学习、数据挖掘、人脸识别等带来了新的思路。Hadoop作为最炙手可热的分布式计算框架之一,已广泛应用于工业界和学术界。本课题基于Hadoop平台,从改进人脸识别计算模型、优化资源调度角度出发,来提高人脸识别作业执行效率。论文的主要研究内容分为四部分:1.分析人脸识别主要流程及识别算法,重点分析了SVM算法。并分析Hadoop平台核心子项目的关键思想和架构原理,包括分布式文件系统HDFS、离线批量计算模型MapReduce、资源管理器YARN、有向图计算框架Tez。2.针对Hadoop平台,改进优化人脸识别计算模型。提出了基于MR的人脸特征提取算法,解决了Hadoop不宜处理大量人脸图像的问题。提出Reduce端数据倾斜解决方案,并将其应用于特征提取、分类器训练作业上。提出了基于Tez的多级分布式SVM训练算法,在保证预测正确率的基础上,提高了分类器训练效率。3.针对轻量级异构的Hadoop集群,提出基于资源预取的感知机分类调度算法。分析现有的Hadoop作业调度算法存在的弊端:FIFO Scheduler不适宜多用户多作业的调度问题,Capacity Scheduler和Fair Scheduler需进行大量配置。鉴于轻量级异构的Hadoop难以做出合理的配置,提出了一种基于感知机分类的作业调度算法,来提高集群资源使用效益。数据本地性是衡量调度器性能的标准之一。由于Hadoop在数据本地性方面的不足,以及资源预取的可行性,提出了基于资源预取的任务调度算法。在非本地map任务被调度之前,提前将数据预取到计算节点。减少非本地map任务的等待时间,进而提高作业运行效率。4.搭建Hadoop集群,通过多组实验,来评估基于Hadoop平台的人脸识别计算模型改进的可用性,以及基于资源预取的感知机分类调度算法有效性。实验结果表明,本文针对人脸识别计算模型的改进是可用的。本文提出的调度算法无需大量配置,经学习后能达到良好的调度性能,且提升了数据本地性。
其他文献
工业时代创造出了人类有史以来前所未有的巨额财富。人类大规模开发自然资源、改造自然实现了生产力的迅速提高和财富的不断积累。然而,就在征服自然的同时,人口的急剧式增长、
本文研究的车载监控系统是车辆监控系统的重要组成部分,而车辆监控系统又是整个智能交通大系统的一个关键组成部分。没有车辆系统的智能化,车辆信息就不能被有效、快速地收集,就
本课题是在课题组前人工作的基础上,构造了基于TMS320LF2407DSP的电弧炉电极调节自适应控制器,软件部分采用模型参考自适应算法,控制对象为三相交流伺服电机和基于AT89C55的信号
现场总线技术当前工业控制的热点,在现有的各种现场总线标准中,PROFIBUS现场总线是一种比较流行的现场总线标准,其中,用于设备级控制和分散式I/O通信的PROFIBUS—DP是市场占
学位
分布式动态系统是一种复杂的多变量系统,普遍存在于物理学、生物学以及工程应用中。耦合同步、动物群集、多机器人系统和Internet网络拥塞控制系统等都可用分布式动态系统描述
嵌入式系统应用于智能设备、工业控制领域实现各种信号的处理与控制,是近年来技术研究和产品开发的热点。同时,随着以太网技术的迅速发展,工业控制中过程监控层和现场设备层信号
铅酸蓄电池因其可循环充电再利用的特性,且成本低,使用安全且无污染等优点,成为了电机车供电电池的首选。传统的充电设备是相控晶闸管整流充电设备,设备体积大,不利于防爆和井下使用,而且传统的充电设备还有效率低、功率因数大、对电网污染大、充电时间长等不足,并且充电过程不够智能化等问题。随着各种微处理器技术的发展,数字化控制已经成为充电机的发展方向。与模拟控制相比,数字化控制开发周期短,控制算法更加先进,而
随着科技的发展,从海量数据中获取信息已成为当前机器学习的热点研究问题。在实际应用中,对大量的数据赋予人工标记需要消耗大量的人力物力,从而限制了已标记样本的数量,也限
PID控制器在工业领域中作为最通用化的控制器已有50多年历史,现在仍然是应用最广泛的工业控制器。PID控制器主要优点是结构简单,鲁棒性强,稳态无静差且易于操作等。因此,PID
码分多址(CDMA:Code Division Multiple Access)接入方式以频谱利用率高、抗多径、抗干扰、软切换、用户接入方便等其它多址技术不可比拟的优越性被认为是未来移动通信系统的