论文部分内容阅读
深度神经网络近年来发展迅速,其强大的计算能力使其成为一种解决复杂问题的有效工具,目前已被广泛应用于自动驾驶,人脸识别以及增强现实等领域。为减小移动设备响应时延,保护用户隐私,在移动端或边缘设备进行模型推理是非常有必要的,而移动端有限的资源及能耗限制成为深度模型应用的最大瓶颈。研究发现,模型压缩技术为解决该问题提供了可能。然而,目前尚不清楚模型压缩技术在不同结构类型的神经网络下的具体性能表现。由此,本文通过对11个经典深度神经网络在嵌入式环境下进行性能评估,然后采用模型压缩算法对神经网络的负载特征进行改善,为深度神经网络在嵌入式移动端的有效应用提供理论及技术上的支持。具体研究工作如下:(1)通过将经典深度学习模型移植到嵌入式环境上进行性能测试和分析,研究了不同神经网络结构在嵌入式环境下的性能表现。在此基础上进一步追踪不同网络结构操作数的时间开销,对深度神经网络在嵌入式移动端的具体性能表现做了评估研究。(2)针对原始神经网络在嵌入式移动端存储空间过大、推理时间过长及能耗过高的问题,通过研究量化、稀疏、裁剪三种压缩技术,改进压缩算法,实现了对不同网络结构的模型在不同比例下的模型压缩。实验对比了不同压缩方法下模型的负载特征并追踪分析了不同方法带来性能差异的原因。最终证明合理的模型压缩技术和比例的选择可以对模型大小、推理时间及能耗进行有效的优化,且不同压缩方法在不同网络结构中存在性能差异,合适的压缩方法取决于目标神经网络的具体结构及优化约束条件。(3)通过分析不同压缩方法的负载特征,进一步提出一种基于Q-Learning算法的自适应模型压缩技术选择方法。该方法以深度神经网络模型性能需求作为约束条件,通过对Q-Learning算法中的动作状态集和奖励函数进行详细设计,将模型压缩技术和比例与优化目标相结合,实现在不同网络、不同任务需求下模型压缩技术的自动选择,为深度神经网络的模型压缩提供一种自适应的压缩技术选择算法。实验在五种经典模型结构下进行验证,实现了在准确率平均损失3%的条件下,模型的推理时间平均降低12.8%,能耗降低30.2%,模型大小降低55.4%。