卷积神经网络DPU加速系统设计与实现

来源 :武汉理工大学学报 | 被引量 : 0次 | 上传用户:woxuejavalala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对嵌入式AI系统中卷积神经网络推理阶段实时性问题,利用软硬件协同设计的思想,在ZYNQ UltraScale+芯片上搭建了基于Deep Learning Processing Unit(DPU)的加速系统,同时为解决DPU调度效率较低的问题,基于优先队列的思想提出了一种适用于DPU的多任务多线程调度策略。在ResNet50,MobileNetV2和DenseBox+MobileNetV2模型上的实验结果表明,加速系统性能与PC机CPU相比提升了141倍,与GPU相比提升了15倍,功耗仅为CPU的6%,GPU的2%。提出的调度策略使DPU调度效率提升了28%,并有效的保证了多任务推理流程的完整性和有序性。
其他文献
色素性皮肤病疗程长,患者长期口服药物易引起诸多不良反应,而外用药物因皮肤渗透性差治疗效果并不理想。微针经皮给药系统可穿透角质层开创多个可逆性微通道,显著提高治疗药物的渗透性,具有局部靶向性好、给药可控可持续、避免胃肠刺激和肝脏首过效应等优势。临床已尝试用于黄褐斑、白癜风和黑眼圈等色素性皮肤病的治疗。本文对微针经皮给药系统的机制及其在黄褐斑、白癜风和黑眼圈等色素性皮肤病的基础研究和临床应用作一综述,
2021年12月3日,山东省人民政府办公厅印发《全面加强新时代大中小学劳动教育重点任务及分工方案》等三个方案,对全面构建体现时代特征的劳动、体育和美育工作体系作出了详细而具体的部署,这有助于让广大学生从“唯分数”“唯升学”的教育评价观中解放出来,让教育回归到全面发展的教育本质,为促进和实现学生的全面、个性和有创造的发展提供了政策保障。开展体美劳工作,不仅要通过系统的教育让学生牢固树立起“劳动最光荣
期刊
为实现边缘端人体行为识别需满足低功耗、低延时的目标,本文设计了一种以卷积神经网络(CNN)为基础、基于可穿戴传感器的快速识别系统.首先通过传感器采集数据,制作人体行为识别数据集,在PC端预训练基于CNN的行为识别模型,在测试集达到93.61%的准确率.然后,通过数据定点化、卷积核复用、并行处理数据和流水线等方法实现硬件加速.最后在FPGA上部署识别模型,并将采集到的传感器数据输入到系统中,实现边缘
估计很多小朋友都害怕打针,好疼呀!还有一些需要经常打针的病人就更惨了,扎得到处是针眼,看得人心都在颤。科学家叔叔阿姨们,你们就不能帮助解决这些“扎针人士”的烦恼吗?还真说中了,纳米微针——这项“人类给药技术的革新”完全抛弃了传统给药的针管,一个小小的“给药创口贴”贴到身上,药物就会进入身体里了。
期刊
学位
研究黄金微针联合可复美面膜对玫瑰痤疮患者症状、皮肤生理功能、预后的影响。选取2019年8月~2021年8月本院142例玫瑰痤疮患者,随机数字表法分组,各71例。对照组采取黄金微针,观察组基于对照组采取可复美面膜,均治疗4周。统计两组治疗效果、不良反应及治疗前后症状评分、皮肤生理指标(经皮水分流失量(TEWL)、表皮含水量、油脂)、角质层完整性指标(粘脱蛋白含量、丝氨酸蛋白活性)、痤疮特异性生活质量
为提高行为识别算法的实时性,适用于资源有限的嵌入式设备,提出了一种行为识别算法硬件加速方法,并在FPGA平台实现。传统的基于可穿戴传感器的行为识别算法需要严格标记的数据进行训练分类,但传感器序列的标注过程消耗大量的人力和计算资源,针对该问题,在传统的卷积神经网络模型中引入注意力机制,用于基于弱标签数据的行为识别。算法中的卷积、池化和注意力机制等计算模块使用高层次综合设计。针对模型的运算特性,通过流
近年来,随着深度学习算法的不断发展,卷积神经网络(Convolution Neural Network,CNN)已广泛应用于基于可穿戴传感器的人体行为识别中,但卷积神经网络是一种计算密集性算法,大多部署在GPU或CPU平台上,GPU虽然能实现实时处理,但硬件部署成本高,计算功耗大,难以满足资源和功耗受限的嵌入式领域应用要求,而CPU计算效率低、功耗高,难以满足实时性的要求。因此,研究出一套精度高、
学位
信息技术作为初中教育体系中重点学科,针对学生学科综合素质的均衡发展而言发挥着重要作用。初中信息技术教师需要把微课应用到教学过程中,除可增添课堂教学趣味性外,还可将枯燥难懂的信息技术知识以生动形象的方式呈现在学生面前,可在提高学生学习积极性,激发学生学习兴趣的同时,帮助学生对于学科知识形成全面且深入的理解,推动课堂教学质量的提升。基于此,本文总结了初中信息技术教学方法,着重阐述了在初中信息技术教学中