基于FPGA的稀疏化卷积神经网络加速器

来源 :计算机工程 | 被引量 : 0次 | 上传用户:nanlulgd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器。通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作。在此基础上,对所有相关的中间结果经加法树获得最终输出特征图点,同时在特征图宽度、高度和输出通道方向上做粗颗粒度并行并寻找最佳的设计参数。在Xilinx器件上进行实验验证,结果表明,该设计实现VGG16卷积层综合性能达到678.2
其他文献
针对传统属性基加密方案中单授权中心计算开销大以及安全性较差等问题,通过引入多个授权中心以及安全两方计算协议等技术,提出一种支持细粒度属性级撤销和用户级撤销的密文策略属性基加密方案。引入多个属性授权中心以颁发并更新属性版本秘钥,同时秘钥生成中心与云存储服务器之间进行安全两方计算等操作,生成并更新用户密钥,从而进行细粒度属性级撤销。在云存储服务器中,对用户列表中的用户唯一秘值及唯一身份值进行操作以实现用户级撤销,同时通过多个授权中心抵抗合谋攻击,并将部分计算工作外包给云端。分析结果表明,与基于AND、访问树和
传统基于会话的推荐算法主要利用点击物品的时序信息进行建模,忽略了挖掘物品的特征信息,且未利用物品之间的相似性。为提升推荐效果,提出一种新的基于会话的推荐算法SR-I2V。通过Skip-gram模型和层次softmax优化方法学习物品的嵌入向量,由意图递进公式对已发生的物品点击提取出意图特征向量,并根据特征向量相似度计算出每个候选项的推荐分数。实验结果表明,与I2I、Po P和S-POP等传统基于会话的推荐算法相比,该算法在Yoochoose和Diginetica两个数据集上的推荐召回率分别提高了至少4.6
针对语义分割中目标边缘模糊与分割不准确的问题,提出一种结合边缘检测的语义分割网络。整个网络由边缘检测网络和语义分割网络并行组成。利用边缘检测网络与语义分割网络分别提取图像的边缘特征和初步的语义分割特征,通过特征融合模块将边缘特征和语义分割特征进行融合,得到最终的语义分割结果。在CamVid数据集和Cityscapes数据集上的实验结果表明,与SegNet算法相比,该算法平均交并比分别提升了1.5和
针对体检机构顾客排队等待时间长的问题,研究随机服务时间下的体检顾客调度,采用多人时间槽预约策略,并在预约调度策略的基础上优化每位顾客的体检项目顺序,提出一种包含粗糙仿真评估和精确仿真评估两阶段随机仿真优化算法。运用序优化思想将基于亲和度评估的多种群遗传算法作为迭代优化策略,并利用改进的最优计算量分配方法排除超级个体的影响,形成仿真资源的全局和自适应优化分配机制。实验结果表明,与不进行任何调度及使用体检顺序启发式调度规则的离散事件结果相比,该算法获得了更好的调度解。
时间式隐信道利用数据包的包间时延来传递秘密信息,受网络时间特性复杂性的影响,网络隐信道的检测率低且虚警率较高。提出一种利用Xgboost模型的Skype时间式隐信道检测方法。在传统提取Skype时间序列的Markov转移特性、信息熵、包间时延的均值与方差、DCT系数、ε-相似度等特征的基础上,增加峰态、偏态和标准偏差的差值3种特征,以准确了解包间时延分布并进行筛选排查,同时采用五折交叉验证法结合无重复抽样技术,使每次迭代时每个样本点只有一次被划入训练集或测试集,最终通过Xgboost算法进行判决和检测。实
文中简要分析了大体积混凝土的材料及配置要求,并详细阐述了大体积混凝土的浇筑程序,最后针对大体积混凝土的温度裂缝控制提出了几点措施,以供参考.
为实现互联网全面加密环境下的恶意加密流量精确检测,针对传统识别方法较依赖专家经验且对加密流量特征的区分能力不强等问题,提出一种基于层次时空特征与多头注意力(HST-MHSA)模型的端到端恶意加密流量识别方法。基于流量层次结构,结合长短时记忆网络和Text CNN有效整合加密流量的多尺度局部特征和双层全局特征,并引入多头注意力机制进一步增强关键特征的区分度。在公开数据集CICAnd Mal2017上的实验结果表明,HST-MHSA模型的流量识别F1值相较基准模型最高提升了16.77个百分点,漏报率比HAST
循环神经网络和Transformer在多轮对话系统的建模上依赖大量的样本数据且回复准确率过低。为此,提出一种针对任务型对话系统的建模方法。引入预训练模型对句子语意和对话过程进行深度编码,对Transformer模型进行精简,仅保留编码器部分的单向Transformer,将应答部分抽象成不同的指令,采用孪生网络对指令进行相似度排序,选择相似度最高的指令生成应答。在MultiWOZ数据集上的实验结果表明,与LSTM和基于Transformer模型相比,该方法预测速度更快,在小数据集上具有更好的性能,在大数据集
针对实用拜占庭容错算法PBFT共识时延高、视图切换效率低、动态性不足等问题,提出一种基于备选投票机制的低时延共识算法IPBFT。通过增设候补集合,使系统的共识节点能够支持动态增加和减少,同时优化视图切换协议,使算法能够在只有两个阶段的情况下完成共识过程,降低系统的通信开销。在此基础上,将算法的主节点选取方式改进为投票选举机制,在节点进行共识的过程中实现主节点的选举,从而减少视图切换所需的通信次数和时延。实验结果表明,IPBFT算法较原始PBET算法具有更低的共识时延和更高的吞吐量,并且能够较好地支持节点动
针对5G/B5G网络的热点场景中存在数据流量激增及基站与用户设备(UE)之间空间耦合的问题,构造一种基于泊松簇过程的无人机(UAV)协助的多层毫米波异构蜂窝网络模型。为提高该多层网络模型的平均区域吞吐量(AAT),提出基于最大偏置接收功率(BRP)准则的4层级联方案。借助毫米波传输模型和随机几何数学工具,通过UE级联概率及各层基站对UE干扰的拉普拉斯变换,推导出系统条件覆盖概率和AAT的数学解析表达式。研究UAV基站投影在地面上的分布方差、地面基站的密度对级联概率的影响,比较不同级联方案可获取的系统AAT