卷积神经网络的硬件实现算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:caochangzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(Convolutional Neural Networks,CNN)近年来在图像分类、目标检测、视频语义分析等领域取得了突破性的进展,其强大的特征学习与分类能力得到广泛的关注。由于卷积神经网络庞大的参数数量与巨大的计算量,将其直接应用到具有有限计算与存储资源的硬件平台上并非易事,因此迫切需要研究卷积神经网络的有效硬件实现技术。本文对卷积神经网络的FPGA硬件实现算法展开研究,结合硬件特性,提出了基于分块处理、跨通道计算、数据缓存与并行运算的代码优化方法,设计了一种适于硬件实现的数据流。此外,通过矩阵分解降维对全连接层进行算法优化,减少全连接层的参数个数与计算量。对数据进行定点化处理,压缩了网络参数和中间数据,在缓解了带宽压力的同时也提高了整个设计的处理效率。以提出的硬件优化技术为基础,本文提出了用于目标识别的Tiny-YOLO网络的FPGA硬件实现方案。针对卷积计算的数据缓存,除使用片外DDR SDRAM用以存储输入输出数据之外,同时使用片上BRAM作为一级缓存和使用寄存器作为二级缓存,通过层次化的存储结构提高数据的重复利用率,减少数据存取对带宽的压力。对计算资源进行合理分配,设计通用的并行化的计算单元(Processing Element,PE),实现更为有效的数据运算。针对Tiny-YOLO网络,讨论分块大小问题,并最终确定了一种计算与带宽相权衡的分块解决方案。最后,本文使用Vivado高层次综合(High-Level Synthesis,HLS)工具完成了方案的综合和验证。设计测试方案对硬件实现分别进行单元测试、集成测试与系统测试,验证设计的正确性,并给出了在VC707 FPGA平台的仿真结果。对硬件综合结果进行分析,查看硬件资源的占用情况,验证硬件设计的合理性。综合和测试结果表明,本设计在143MHz工作频率下可以达到21FPS的处理速度。
其他文献
溶液法制备工艺因其低成本和操作简单等特点,近年来被广泛应用于金属氧化物薄膜晶体管(Metal Oxide Thin Film Transistor,MOTFT)的制备。本文以旋涂法制备的介质层和有源层为研究对象,通过采用叠层结构的方式来解决传统金属氧化物介质层和有源层所面临的问题,进而实现高性能的叠层介质层和有源层。本文首先探究了叠层金属氧化物介质层的制备工艺。通过采用控制变量法,探索出了薄膜各项
目的探讨伏立诺他联合PI3K抑制剂NVP-BEZ235对T淋巴细胞生长增殖的影响,并探讨其作用机制。方法体外培人T淋巴细胞白血病细胞系Jurkat细胞,用不同浓度伏立诺他或(和)NVP-BEZ235孵育后,采用MTS观察两者单独用药或联合用药对细胞的增殖的影响,并计算药物的联合指数;选取联合用药后细胞半抑制浓度(IC50)组合用于下一步研究,包括流式细胞术检测细胞凋亡;Western blot检测
机器人具有效率高、重复机械动作和在恶劣环境中工作的能力,在经济生活、工业生产中获得广泛地应用。轨迹规划设计是机器人执行动作的重要组成部分,它决定机器人定位和精度运行效率。传统的轨迹规划方法使得工业机器人在上料时容易出现上料时间过长,以及机械臂振动造成上料位置不准确等问题。本论文以6自由度机械臂上料过程为研究对象,以给定关键点为基础(关键点通过多次示教的方法选取),研究了机械臂结构模型搭建、轨迹规划
网络对讲机因其价格低、通话质量优和通信距离长等优点,被广泛地应用到工业、安保和消防等领域。随着网络对讲用户数剧增,原有网络对讲交换平台突显出了两大问题:面对大量对讲交换任务并发时,平台交互速度变慢、稳定性变差;存储在平台上的对讲语音数据增多时,文件检索效率低、安全性差。Hadoop分布式文件系统(Hadoop Distribute File System,HDFS)进行大数据处理时具有较高的安全性
基于属性加密实现用户细粒度访问控制,然而解密计算量大,密文完整性无法验证,不适用于现实场景中使用。可验证外包属性加密能够减少解密计算量,同时实现消息完整性验证,保证系统安全。因此,构建安全和高效的可验证外包属性加密方案成为目前研究的热点。论文针对具有不同功能的可验证外包属性加密方案进行深入研究,具体包括:(1)针对可验证外包属性加密方案中的属性撤销问题,本文在标准模型下提出一种安全的支持属性撤销可
目的:本临床研究通过利用导师长期临床经验用方干预脾虚痰浊型的血脂异常,观察其中西医临床疗效和安全性以及对肠道菌群、脂联素、瘦素的影响。材料与方法:本临床试验基于课
随着移动设备的普及和移动应用用户数量的爆发式增长,移动智能终端安全面临着巨大挑战。机器学习作为人工智能领域的重要方法,近年来在通过分析网络行为进行移动恶意应用检测的研究中得到了广泛应用。然而,由于网络流量天然存在的类别分布不平衡特性和持续到达特性,给机器学习模型训练带来了诸多困难与挑战。首先,在真实环境中,正常行为的网络流量数量要远远多于恶意行为的网络流量数量,这种类别不均匀分布的数据集使得传统的
目的:研究结肠癌转移相关基因1(metastasis associated in colon cancer1,MACC1)对人鼻咽癌细胞恶性生物学行为的影响,观察人鼻咽癌细胞过表达MACC1对细胞的增殖、迁移及侵袭的影响。方法:1.采用Western blot技术检测鼻咽癌5-8F、HNE-1、CNE-1、CNE-2细胞株中MACC1的蛋白表达水平。2.通过慢病毒转染技术建立一组过表达MACC1的
近年来,机器学习技术与传统的通信技术有了更多的交集。现代的通信系统在运行过程中会产生大量的数据,将其与先进的机器学习技术结合能够显著提升网络的性能并优化通信组件的设计和管理。在这一领域,最近提出了一种利用端到端训练对通信系统组件进行联合优化的方法。本文利用这一思想,对单载波频域均衡(SC-FDE)系统进行信道估计与信号检测。本文主要工作如下:(1)首先,针对单天线SC-FDE系统,利用深度学习网络
目的1.描述妇科癌症患者和配偶的心理资源(包括正念、心理灵活性)与负性情绪(包括抑郁、焦虑情绪)状况;2.探索妇科癌症患者和配偶正念、心理灵活性对抑郁情绪、焦虑情绪的二