【摘 要】
:
近年来,神经网络已经应用在无人驾驶、医学、地质探测等各个领域。随着卷积神经网络的发展,从Le Net网络结构到VGG网络结构,网络越来越深,每层的规模也越来越大,随之而来的是计算量和参数量越来越大的问题。一般神经网络的训练计算由服务器端进行,再将训练好网络发送到终端进行推理计算,以满足终端的智能化需求。但该传输过程可能会造成用户一些隐私数据的泄露,缺乏安全性,同时终端也缺乏本地的自我训练调整的能力
论文部分内容阅读
近年来,神经网络已经应用在无人驾驶、医学、地质探测等各个领域。随着卷积神经网络的发展,从Le Net网络结构到VGG网络结构,网络越来越深,每层的规模也越来越大,随之而来的是计算量和参数量越来越大的问题。一般神经网络的训练计算由服务器端进行,再将训练好网络发送到终端进行推理计算,以满足终端的智能化需求。但该传输过程可能会造成用户一些隐私数据的泄露,缺乏安全性,同时终端也缺乏本地的自我训练调整的能力。由于设备智能化需求和数据安全需求,神经网络计算载体开始从大型服务器慢慢向终端发展。针对上述的问题,本文对CNN的推理训练过程进行了硬件加速,设计了一种可配置重构的神经网络加速器,支持推理和训练计算,加速器通过指令配置的方式使其能够适应不同神经网络结构的计算。主要工作内容如下:1.对神经网络各层的推理训练计算过程进行分析,在计算结构和数据搬移方面针对不同的计算设计优化的计算方案。2.本文设计了一种可重构的PE计算结构,并以此为基本单元设计了可重构的PE阵列,PE阵列可以根据配置信息重构成不同的高效计算结构,以加速神经网络中的不同计算。3.针对不同的网络结构,本文设计了一套指令系统,通过将神经网络的各层参数化,并转换成指令配置加速器进行神经网络计算,使得神经网络加速器可以适应不同的网络结构完成计算。4.加速器拥有多个计算通道,以提高加速器计算的并行度。本文为了适应不同计算模式的多通道并行计算,针对不同计算设计了相应的地址映射方式和数据分配方式,以满足并行计算的数据需求。5.本文设计的加速器于FPGA上完成实现。本文以VGG-9为网络结构,CIFAR-10为数据集,对加速器进行性能测试和功能验证。本文优化的Winograd计算模式与普通的滑窗卷积相比,提升了近5.41倍的计算速度。在推理和训练各阶段,加速器相对于CPU提升了18-35倍的计算速度。在训练完成后以测试集对加速器进行验证,最终识别率为76.54%。
其他文献
随着互联网的不断发展,视频网站拥有巨大的用户访问数量能够给服务提供商带来可观的收益,向用户推荐流行度尽可能高的视频可以吸引更多用户的关注;同时为了缓解核心网络的流量负载,降低用户获取视频的时延,制定以视频流行度为缓存替换策略的算法可以增加缓存的命中率,提升用户的服务体验质量。因此,视频流行度的预测问题成为了一个急需解决的问题。本文针对传统的视频流行度预测算法在中长期预测中存在预测精度低、自适应性弱
近几年来,卷积神经网络在计算机视觉,自然语言处理和语音识别等领域上取得了突破性的进展。尽管卷积神经网络具备强大的特征表达能力,但模型的过参数化和高计算复杂度使其在训练和推理过程中消耗大量硬件资源,让模型部署在资源受限的嵌入式设备上变得异常困难。因此,研究如何在不降低网络精度的前提下压缩神经网络模型,对于深度学习技术的普及具有重要意义。本文在现有压缩算法的基础上,对其进行优化改进并完成了以下工作:(
特征选择已经被广泛地研究和使用在机器学习和模式识别领域,因为它能够减少问题的复杂度,同时提升学习算法的预测精度。但是,传统的特征选择算法依据特征和类别变量之间的相关关系选择相关特征、去除无关特征,从而没有试图学习它们之间的因果特征。近些年,基于马尔科夫毯的特征选择已经吸引了越来越多人的关注,因为它比传统的特征选择算法具有更好的鲁棒性和可解释性。基于马尔科夫毯的特征选择旨在发现类别变量的马尔科夫毯(
特征选择方法在数据分析与降维中发挥着重要的作用。目前很多特征选择方法存在着一些共性问题,如大量的参数调节、运行时间长、特征的预测效果差等,如何开发出一种适合实际环境使用、减少人为干预的高性能特征选择方法目前仍是一个挑战。另一方面,特征选择与因果发现领域的贝叶斯网络结构学习理论存在着很多重要的联系。目前大多数因果学习算法存在着时间复杂度高,精度差的缺点,此外它们在流特征环境、连续型数据与非线性与弱加
随着数字多媒体与计算机技术的发展,隐写术能以更加难以察觉的方式将秘密信息隐藏在数字多媒体中(如文本、图像和音视频等)。隐写术的滥用不仅威胁到每个公民的隐私安全,更关系到整个国家的繁荣与稳定。为了提高隐写检测准确率,隐写分析者提出了基于卷积神经网络的高级图像自适应检查算法。这类算法通过不断学习网络模型结构中的相关参数,挖掘数据中隐含的复杂关系,提取图像中的数据特征。这不仅大大降低了对研究人员经验和精
传统的基于视觉的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术不能获得周围环境的语义信息,无法满足机器人对自身周围场景的感知、理解和建模的需求。现有的大多数带有语义的SLAM方法要么假定周围环境是静态的,要么仅获取像素级别的语义信息,无法对环境中的每个物体进行实例级别的标识。这将导致机器人面临很多挑战,如无法完成人机交互、智能抓取、碰
随着现代信息技术的发展,万物互联的全新时代即将正式到来,基于物联网的智能家居方兴未艾。目前,大多数家用空调系统都是一对一单控制,无法远程监控空调的系统运行状态,发生故障后,售后人员只能凭大多数用户的非专业描述判断故障原因,很难快速定位并解决问题,新型智能空调已经成为传统空调系统升级换代的最佳选择。本文基于传统中央空调控制技术和物联网技术,设计了一款基于WiFi与阿里云物联网平台的智能空调控制系统。
随着工业4.0的发展,人们对产品质量特别是发光二极管(Light Emitting Diode,LED)表面质量的要求越来越高。在实际生产线上,LED表面缺陷检测技术是检测LED表面质量的关键环节之一,已成为近年来的研究热点。现有的研究大多适用于单光源检测环境,而在多光源检测环境中很难保证检测速度和检测准确率同时满足生产要求。本文基于多光源检测环境,研究LED表面缺陷检测技术,主要工作包括:(1)
随着传感器技术的发展,单一传感器模式逐渐发展为多种传感器模式。然而单一的图像传感器表示能力十分有限,往往不能从场景中提取足够的信息,多源图像融合技术应运而生,提高了图像解译的性能。其中,多光谱和全色图像融合作为近年来的研究热点,在一定程度上解决了多源数据综合分析的问题,促进了图像处理技术的发展。该技术以互补的方式利用了这两种成像方法的特点,有利于更加准确、可靠、全面地获取目标或场景信息。对于多光谱
现代工程结构日益大型化、轻柔化,其安全服役和动力灾变问题越来越突出。结构可靠度分析和结构健康监测是保障工程结构长期服役和安全运营的两个重要研究内容:一方面,结构可能直接承受作用强度远超其设计极限的极端自然灾害,导致结构体系失效,因此有必要对结构进行动力可靠度分析;另一方面,在漫长的服役期内,结构会因环境侵蚀和材料老化等因素的影响出现功能退化,致使服役性能不断下降,因此需要利用损伤识别等手段为结构安