基于SIMD的Square Root函数高性能实现与优化

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:bee2357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机图形学、积分计算和神经网络等应用场景中,平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用。随着ARM架构处理器得到广泛的使用,研究ARM架构下的函数快速算法实现变得更加关键。当前大量处理器都采用了SIMD架构,所以,研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景。因此,对平方根函数进行了高性能的实现与优化。通过分析IEEE 754标准的浮点数在内存中的存储格式,设计了高效的平方根函数算法;然后通过结合平方根倒数和泰勒公式算法,进一步提高了算法精度;最后通过
其他文献
精子头部形状是精子形态分析中的一个重要指标,对诊断男性不育十分重要,因此准确高效地分割出精子头部至关重要。基于此,在残差网络的基础上融合扩张卷积与堆叠残差结构,构建了一个新型编解码分割网络。建立了一个用于分割人类精子头部的数据集,其中包含1 207幅图像,并利用它来训练测试网络。所提出的网络能在多精子、无染色原图中获得优良的分割结果,在验证集上得到了96.06%的Dice系数。实验结果表明,堆叠残
深入推进新时代中国共产党的自我革命,首先要正确把握自我革命发生的内在逻辑。自我革命的重要性体现在理论深度上和历史厚度上,即自我革命是对马克思主义政党角色意识的自觉
在突发事件和大数据情景下,建立基于数据流模糊C均值聚类算法的集群式供应链应急物资需求重要度决策算法,有助于辨识集群式供应链子系统应急物资需求的重要程度。针对集群式
MobileNet网络是一种广泛应用于嵌入式领域的深度神经网络,为了解决其硬件实现效率低的问题,同时达到在不同硬件资源下具有一定可伸缩性,提出了基于FPGA的一款MobileNet网络
多核处理器直接互连构建多路并行系统,一直是提高高性能计算机并行性的主要方式。主要研究多核处理器直连接口的QoS设计,通过直连接口完成跨芯片的Cache一致性报文有效、可靠
河湖治理是社会治理的重要议题。为实现从“九龙治水”到“一龙治水”的突破,河长制应运而生,信息技术的嵌入更为河长制的稳步运行添砖加瓦。在“互构论”视角下,S市Y县“河
前列腺MR图像的自动分割已被广泛应用于前列腺癌的诊断和治疗过程中,然而,由于前列腺的形状变化显著且与相邻组织的对比度低,传统的分割方法仍存在精度低、速度慢等缺点。生成对抗网络GAN在计算机视觉任务中展示出了优越的性能,因此提出了一种使用对抗学习的概念来训练分割网络的方法,实现前列腺MR图像端到端的自动分割。模型框架主要由分割网络和判别网络构成,分割网络生成分割预测图,判别网络判断输入来自真实标签还
国家与社会关系是社会科学研究中的基本命题之一。在经历了“二元对立论”向“国家-社会互动论”的理论演变后,国家-社会关系理论面临理论再造的困境。通过引入新的分析视角
表情识别是在人脸检测基础之上的更进一步研究,是计算机视觉领域的一个重要研究方向。将研究的目标定位于基于微视频的表情自动识别,研究在大数据环境下,如何使用深度学习技术来辅助和促进表情识别技术的发展。针对表情智能识别过程中存在的一些关键性技术难题,设计了一个全自动表情识别模型。该模型结合深度自编码网络和自注意力机制,构建了一个人脸表情特征自动提取子模型,然后结合证据理论对多特征分类结果进行有效融合。实
提出一种基于GPU的高程并行插值算法,实现了对三维地表上海量离散点的并行加速渲染。通过高程纹理组织三维地表网格高程数据作为离散点渲染的基础,并通过GLSL编写GPU着色器程序动态控制图形渲染管线,实现视点相关的高程并行插值算法。实验结果表明,提出的基于GPU的高程并行插值算法较传统的内存插值算法,将三维地表上海量离散点的渲染量级从百万级提高到了千万级。