论文部分内容阅读
随着大数据和人工智能的发展,对于芯片运算能力的要求越来越高。诸如三角、反三角、对数、指数等超越函数运算在实际应用十分常见。这些超越函数运算比加法和乘法运算更加复杂,使用软件算法运算的延时较高,难以满足数据密集型、速度关键型以及实时性应用的要求。因此,需要设计专用电路单元来加速这些常见的超越函数的运算。本文的主要工作包括:1.完成了正弦和余弦函数单元的算法研究与设计实现。基于泰勒定理和分段二阶多项式逼近方法,完成了正弦和余弦函数运算的算法设计。更进一步的,根据算法完成了结构设计以及信号位宽的设计与优化,并进行了仿真验证。仿真结果表明,正弦和余弦函数单元运算结果与准确结果之间的误差小于1 ULP(unit in the last place)且不存在单调性违例,所需的硬件成本与同类运算单元接近。2.完成了反正切函数单元的算法研究与设计实现。通过研究四象限反正切运算的算法,提取了算法的两个关键运算步骤,即象限运算和二象限反正切运算。更进一步的,完成了二象限反正切运算的算法设计,并根据算法完成了硬件结构设计,对设计的硬件结构进行了仿真验证。仿真结果表明,设计的反正切函数单元的运算结果与准确结果之间的误差小于1 ULP;运算输出随输入的增大而逐步增大,不存在单调性违例;且所需的硬件成本低于同类运算单元。3.完成了对数、指数、除法和开根四种辅助函数的算法研究与硬件结构设计,并进行了仿真验证。仿真结果表明,所设计的运算单元执行所述四类运算得到的运算结果与准确结果之间的误差皆小于1 ULP,达到了设计的精度要求。4.完成了超越函数加速器(Transcendental Acceleration Unit,TAU)的设计和实现。通过对各类运算单元的算法与结构的特征进行分析,设计了可用于完成本文所述各类函数运算的TAU的结构,并对其进行了流水线的划分以及综合优化与物理实现。研究结果表明,TAU的所有运算功能达到了设计的精度要求(运算结果的误差不大于1 ULP),且消除了基于分段二阶多项式逼近方法的正弦、余弦以及反正切运算算法的单调性违例。布局布线的结果表明,TAU的面积为1,201,108μm,工作频率可达100 MHz。