加速部件相关论文
为提高计算多体问题的效率,通过分析多体问题的典型算法FMM(fast multiple method)计算特点,提出运用CPU和加速部件FPGA构成混合部件计......
通用矩阵乘优化大多面向大规模稠密矩阵(>=1000),不能很好满足深度学习推理中更小规模且形状不规则的矩阵乘法计算需求。研究显示,......
以高性能计算中的经典问题——多体问题的快速多极子(FMM)算法为例,分析FMM算法的各个步骤,根据计算、通信和存储特性将算法中的子过......
互联网时代信息量的爆炸式增长、深度学习的普及使传统通用计算无法适应大规模、高并发的计算需求。异构计算能够为深度学习释放更......
经过约30年的发展,现场可编程门阵列(FPGA)已经成为了一个成熟而强大的器件,以不同的角色承担着越来越多的任务。从开始纯粹的可编程逻......