论文部分内容阅读
随着大数据时代的来临,如何高效地从人脸图像大数据中挖掘出有价值的信息,已成为研究热点。云计算、分布式计算的飞速发展,给视频处理、语音识别、机器学习、数据挖掘、人脸识别等带来了新的思路。Hadoop作为最炙手可热的分布式计算框架之一,已广泛应用于工业界和学术界。本课题基于Hadoop平台,从改进人脸识别计算模型、优化资源调度角度出发,来提高人脸识别作业执行效率。论文的主要研究内容分为四部分:1.分析人脸识别主要流程及识别算法,重点分析了SVM算法。并分析Hadoop平台核心子项目的关键思想和架构原理,包括分布式文件系统HDFS、离线批量计算模型MapReduce、资源管理器YARN、有向图计算框架Tez。2.针对Hadoop平台,改进优化人脸识别计算模型。提出了基于MR的人脸特征提取算法,解决了Hadoop不宜处理大量人脸图像的问题。提出Reduce端数据倾斜解决方案,并将其应用于特征提取、分类器训练作业上。提出了基于Tez的多级分布式SVM训练算法,在保证预测正确率的基础上,提高了分类器训练效率。3.针对轻量级异构的Hadoop集群,提出基于资源预取的感知机分类调度算法。分析现有的Hadoop作业调度算法存在的弊端:FIFO Scheduler不适宜多用户多作业的调度问题,Capacity Scheduler和Fair Scheduler需进行大量配置。鉴于轻量级异构的Hadoop难以做出合理的配置,提出了一种基于感知机分类的作业调度算法,来提高集群资源使用效益。数据本地性是衡量调度器性能的标准之一。由于Hadoop在数据本地性方面的不足,以及资源预取的可行性,提出了基于资源预取的任务调度算法。在非本地map任务被调度之前,提前将数据预取到计算节点。减少非本地map任务的等待时间,进而提高作业运行效率。4.搭建Hadoop集群,通过多组实验,来评估基于Hadoop平台的人脸识别计算模型改进的可用性,以及基于资源预取的感知机分类调度算法有效性。实验结果表明,本文针对人脸识别计算模型的改进是可用的。本文提出的调度算法无需大量配置,经学习后能达到良好的调度性能,且提升了数据本地性。