DeepBench测试相关论文
通用矩阵乘优化大多面向大规模稠密矩阵(>=1000),不能很好满足深度学习推理中更小规模且形状不规则的矩阵乘法计算需求。研究显示,......
为满足深度学习推理中对不同规模矩阵乘法的计算需求,提出一种基于Zynq SoC平台的整数矩阵乘法加速器。采用基于总线广播的并行结......