PEST:由PYNQ集群实现的高能效NEST类脑仿真器

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:skywalker0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高性能且低功耗地进行大规模类脑仿真是类脑计算所需解决的最具挑战的问题之一.目前类脑计算的实现方式主要分为硬件实现和软件实现两种.通过硬件实现的专用类脑计算芯片与系统可以提供更佳的能效指标,但代价高、适应性差;基于软件方式的仿真(如NEST)拥有完整的应用生态,可用性好但存在计算速度慢的问题.如果将两种实现方式相结合,通过软硬件协同设计,可以在保证良好应用生态的同时获得更高的计算能效,提出了一种基于FPGA异构平台PYNQ集群的NEST类脑仿真器的高能效实现(PEST).通过构建大规模PYNQ集群,设计软硬件数据交互接口实现基于NEST仿真器的规模可伸缩类脑计算系统,针对IAF神经元进行FPGA硬件电路设计,利用MPI分布式计算等方式提升了NEST计算效率.实验结果表明:针对不同的计算模型,在PYNQ集群最佳适配情况下,PEST上神经元更新部分的性能相比AMD 3600X提升超过4.6倍,相比Xeon 2620提升超过7.5倍;PEST的更新能效比相比3600X提升超过5.3倍,相比Xeon 2620提升超过7.9倍.
其他文献
基于异质信息网络的推荐方法已成为当前数据挖掘领域的研究热点.但传统基于异质信息网络的推荐方法多存在可解释性缺失和稀疏不一致性问题,导致无法充分挖掘用户潜在的偏好特征,且有效地进行特征融合.因此,提出了一种在异质信息网络中融合网络嵌入的注意力偏好推荐方法(MFFHINE);利用对称元路径在刻画对象间语义关系上的优势,在对称元路径上随机游走进行网络嵌入来学习用户偏好特征.采用基于注意力机制的偏好权重融合策略将学习到的各个偏好特征有效融合,并将其集成到矩阵分解模型中.通过联合优化矩阵分解模型和融合函数,以进行最
深度卷积神经网络能充分利用特征间的内在联系,提高高光谱影像的可分性,近年来受到了广泛关注。但是,训练深度网络模型对大量标记样本的需求限制了此类方法的应用。将迁移学习思想引入遥感影像分类以减少对标记样本数量的需求。具体研究目标图像中每类只有一个标记样本的情况。通过对目标图像分割得到的同质区扩增目标域的训练样本数量,在此基础上运用深度孪生卷积神经网络减少源域图像与目标域图像的分布差异,实现对目标高光谱
在导弹智能突防的过程中,从海量的遥感图像数据中检测敌方反导阵地具有极大的应用价值。由于弹载部署环境算力有限,设计了一种兼顾轻量化,检测精确率以及检测速度的遥感目标检测算法。制作了典型遥感军事目标数据集,通过K-means算法对数据集聚类分析。利用MobileNetV2网络代替YOLOv3算法的主干网络,保证网络的轻量化和检测速度。提出了适用于遥感目标特性的轻量化高效通道协同注意力模块和目标旋转不变
针对模糊随机环境下智能工厂建设方案优选问题,从智能、产销、辅助3个支持维度设计评估准则体系,考虑区间数准则权重与正态云准则值,提出基于偏差一致性原理与余弦逼近度的新方法.首先,根据正态云与正态随机变量间的关系,将正态云决策矩阵转化为广义正态随机决策矩阵,通过正态云的3σ原则生成区间数决策矩阵;然后,检验区间准则权重向量的合理性和可行性,运用熵权法与偏差一致性原理构建非线性多目标规划模型,求取综合准则权重向量;进一步,基于规范化区间数决策矩阵,考虑各方案与理想方案的方向与位置差异,计算改进型加权区间余弦相似
基于局部特征的图像匹配算法是电力巡线无人机航拍图像匹配算法中最为实用的一种方法。针对传统匹配算法构建尺度空间会致使图像边缘信息丢失或者效率较低等问题,提出一种基于高斯曲率尺度空间的航拍图像匹配算法。借助高斯曲率滤波器构建一阶尺度空间,利用FAST算法提取特征点并选择特征采样区域,再以对特征采样区域建立二阶尺度空间并提取二阶尺度空间层内LIOP描述符,随后二阶尺度空间两两层LIOP描述符做差值并二值
针对传统机器学习方法在处理不平衡的海量高维数据时罕见攻击类检测率低的问题,提出了一种基于深度学习的随机森林算法的入侵检测模型,为了避免传统的随机森林面对高维数据和不平衡数据时分类精度低、稳定性差和对罕见攻击类检测率低的问题,引入生成式对抗网络(GAN)和栈式降噪自编码器(SDAE)对随机森林算法(RF)进行改进.将罕见攻击类数据集输入GAN神经网络中,生成新的攻击类样本,改善网络入侵数据在样本集中不均衡分布的情况,通过堆叠深层的SDAE逐层抽取网络数据的分布规则,并结合各个编码层的系数惩罚和重构误差,来确
针对单变更传播路径搜索方法面向多变更的不适用问题,提出多变更传播路径并行搜索方法.首先,基于构建的零部件网络模型,提出变更风险指数,作为路径优化的重要指标;其次,依据多变更传播路径的干涉特征,划分串行、分裂、合并3种基本传播形式,提出变更影响求解方法;基于此,提出下行变更传播路径搜索算法、约束变更传播路径搜索算法两部分组成的多变更传播路径并行搜索模型.最后,通过实例验证了所提方法的有效性和可行性.
针对基于深度学习的人脸识别模型难以在嵌入式设备进行部署和实时性能差的问题,深入研究了现有的模型压缩和加速算法,提出了一种基于知识蒸馏和对抗学习的神经网络压缩算法.算法框架由三部分组成,预训练的大规模教师网络、轻量级的学生网络和辅助对抗学习的判别器.改进传统的知识蒸馏损失,增加指示函数,使学生网络只学习教师网络正确识别的分类概率;鉴于中间层特征图具有丰富的高维特征,引入对抗学习策略中的判别器,鉴别学生网络与教师网络在特征图层面的差异;为了进一步提高学生网络的泛化能力,使其能够应用于不同的机器视觉任务,在训练
人脸合成由于其应用与技术价值,是机器视觉领域的热点之一,而近年来深度学习的突破性进展使该领域吸引了更多关注。将该领域的研究分为四个子类:人脸身份合成、人脸动作合成、人脸属性合成与人脸生成,并系统地总结了这些子类的发展历程、现状,以及现有技术存在的问题。首先针对人脸身份合成,从图形学、数字图像处理与深度学习三个角度总结了各自的合成流程,对关键技术原理进行了详细的解释与分析。其次将人脸动作合成进一步分
为了应对冯·诺依曼计算架构的存储墙,存内计算(CIM)架构将逻辑嵌入到存储器中,在读取数据的同时完成运算,使存储单元具备计算能力并且减少了处理器和存储器之间的数据传输.为实现大容量、低成本存储器设计,提出了一种以双字线双阈值4T SRAM为基础的存储系统,不仅可实现数据的存储与读取,而且还可实现BCAM运算和与、或非、异或等逻辑运算.逻辑运算时,经译码电路任选两行存储数据,位线均预放电至低电平,位线电压通过位线端灵敏放大器与参考电压比较后输出运算结果.BCAM运算时,外部输入数据经译码电路译码后实现对存储