基于GPU深度网络的加速算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:syameimaruda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在图像识别、语音识别等领域,深度学习的表现越来越突出,成为业界内很多人的研究对象。而在一个的神经网络中,包含了大量的参数,在进行网络训练时,参数量越大,单次训练需要的时间越来越长。其次,现有的深度网络框架并不能满足任何环境下的网络运行。而近年来,图形处理器GPU(Graphic Processor Units)硬件设备得到了快速升级,通用计算技术因此而有了飞跃性的成长,到如今已慢慢开始走向成熟。现在,很多功能强大的GPU的算力是CPU(Central Processing Unit)的几十倍。因此,使用GPU的计算资源加速深度网络能够很好地解决现如今深度网络训练时长的问题。基于以上分析,本文对如今存在的并行加速算法研究后,基于CUDA(Compute Unified Device Architecture)的计算框架,对深度学习算法进行并行加速研究。本论文的主要工作总结如下:(1)GPU加速算法的方法研究。设计深度网络时,在计算的层面,研究了卷积计算展开矩阵乘法的方法,减少网络计算乘法量与加法量;在网络的层面,研究了网络部分参数化的方法,将网络中的权值偏置矩阵进行稀疏化矩阵操作;在网络层面的并行上,研究了通道并行化的方法,对网络在线程块与线程这两个级别上实现并行加速计算。(2)VGG-16深度网络的构造与加速对比研究。在CUDA上,基于加速算法的并行方法,构造出VGG-16深度神经网络,并基于数据集中的图片对网络VGG-16网络进行训练,可视化网络运行时间,计算GPU的加速比。同时,在CPU上对VGG-16网络的单核计算时间与7核计算时间进行了与GPU加速实验的对比研究。最后与VGG-16网络在一些框架上运行的时间作比较,说明本文提出的方法在参数量大的深度网络上应用的有效性。(3)Alexnet深度网络的构造与加速对比研究。在GPU平台上,在单GPU上实现Alexnet网络的构造,并基于本文中的方法,对Alexnet网络进行了网络优化,对网络各层的优化时间进行了可视化,最后与CPU计算和原网络双GPU计算进行了计算时间的对比,说明本文方法在参数量小的深度网络上应用的上有效性。
其他文献
网络与科技的高速发展,方便了人们日常的生活工作,但与此同时,部分网络攻击带来的安全问题也越来越多,其中高级持续威胁攻击已成为网络安全最大的威胁之一。高级持续威胁(APT)是指某些组织对特定对象展开的持续有效的攻击活动。这些黑客组织具有较高的专业技术水平,且有足够的资源展开长期攻击。这种攻击不易被察觉,具有极强的针对性,且能绕过常见的安全策略,如防病毒、入侵检测系统等各种主流安全检测技术。现有有效的
随着互联网的快速发展,微服务架构应用越来越广泛。API网关是微服务系统中流行的组件,客户端的请求调用经过API网关的路由后到达后端服务。API网关可以提高微服务系统的灵活性,减轻运维压力,它将许多公共功能和资源集中起来,减少整个系统的资源占用。API网关作为请求流量的入口,承载了巨大的负载,需要避免成为整个系统的瓶颈,并具备较高的高性能,基于该目标本文设计并实现了一个基于云平台的高性能API网关。
Web应用程序防火墙(Web Application Firewall,WAF)在保护Web应用程序免受SQL注入、XML注入和PHP注入等恶意攻击方面发挥着不可或缺的作用。然而,新的攻击层出不穷以及它们的复杂性不断提高,WAF必须定期更新和测试,以防止攻击者轻易绕过它们。测试和修复WAF也是安全分析人员面临的两个相关和互补的挑战。自动化测试通过生成有效的测试输入(即攻击),有助于低成本高效益地检
模型检测是一种验证软硬件系统的强有力方法,它首先用形式化语言来描述待检验系统和系统需要满足的规范,然后使用DFS(Depth First Search)等算法遍历系统模型的状态空间,找出不满足规范的地方并返回反例以指导系统修改。但是现有的模型检测器都是基于单反例的,其在验证系统时往往需要人为的多次干预才能完成验证过程。另一方面,随着移动互联网时代下各种应用和平台的用户量爆发增长,人们将自己在某个平
云计算历经十几年的发展,已经极大地改变了计算资源的使用模式,这种模式不仅提高了资源的利用率,还降低了企业和个人开发新应用的成本。但是云计算在带来便利性的同时,其面临的安全问题也日益突出,云安全事件频发,已经成为企业最关心的问题之一。在云安全中,虚拟机的安全是最根本也是最迫切需要解决的问题。而虚拟机面临的最大威胁就是具有较强隐蔽性和持久性的恶意代码攻击,隐藏进程就是其最主要的特征。因此,针对隐藏进程
在云计算技术突飞猛进,云平台使用日益广泛的今天,用户在生产环境中产生与使用的数据和文件体积随时间发展而极速扩张。针对云平台下的海量数据管理,研究人员提出了云存储概念,其意义是结合云概念,将用户的海量文件存放在大规模分布式文件系统中,结合服务器集群技术,对用户提供访问接口,用户无需关注文件存放的物理位置与组织形式,只需要使用云储存服务访问文件即可。云存储结合分布式文件系统,具有扩容方便,冗余备份,单
随着互联网技术的发展与普及,IPTV作为集通讯、互联网、多媒体等多技术于一体的崭新技术横空出世,为提升我国智能化终端电视产业的发展做出了卓越的贡献。然而IPTV业务承载网络以IP网络作为基础承载网,直接与Internet等网络互联,所以面临着IP网络所具有的各种网络安全风险。但是IPTV网络的渗透测试与安全评估缺乏相应的技术理论支持,当前攻击图模型存在量化指标较单一、客观性差、生成效率较慢,针对目
目前深度学习算法已广泛应用于合成孔径雷达(SAR,Synthetic Aperture Radar)图像的目标检测。然而,当前主流基于深度学习的检测方法存在模型复杂度高、检测速度慢以及对特殊尺寸目标检测性能低等问题。针对上述问题,本文将着重研究基于改进Faster R-CNN(Faster Region-based Convolutional Neural Network)的SAR图像舰船目标检测
在5G中,超高可靠和低延迟通信(Ultra-Reliable and Low-Latency Communication,URLLC)可以有效降低实时无线控制系统中的时延以及丢包率,以满足工业互联及自动化中实时、可靠等高性能要求。然而,为了满足严格的服务质量(Quality of Service,QoS),URLLC消耗了大量的无线资源,严重阻碍了该技术的实施和大范围部署。因此,针对多控制回路的实
伴随着云计算的不断发展,越来越多的企业将数据和服务转移到云端。在传统模式下,企业运营维护数据中心存在设备管理困难、资源利用率低、且硬件升级成本高的问题。而云计算平台能将计算资源、网络资源、存储资源等资源弹性地按需提供给企业用户,极大地为用户节省了硬件管理维护成本。当前的云平台重点在于如何按需切分调度资源,给用户提供高效稳定的服务。但在消息推送方面,缺乏专门的功能组件进行处理,平台控制中心与各业务模