基于有限域NTT的高速大整数乘法器设计与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jonh0521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于全同态加密方案的机器学习可以有效解决因共享敏感数据带来的隐私保护和合法性问题。但原文经过加密之后,密文的数据位宽达数百万位,因此大整数乘法单元成为了加密神经网络训练和推理的基本工具。此外在航空航天等高端应用场合,利用大整数的高精度运算特性,将浮点数的尾数替换成大整数,可以有效解决浮点数运算精度不足的问题。因此,为了提高上述应用的性能,针对大整数乘法器进行创新设计是非常有必要的。本文的主要工作如下:1)设计一种针对正逆数论变换(NTT/INTT)旋转因子的离散压缩方法。通过分析旋转因子生成规律,将其分解成三个基本数据向量,并为三个数据向量设计存储结构和对应的寻址算法。计算过程中利用设计的寻址算法访问内存中的三个数据向量,经过模乘运算得到所有的旋转因子。在本文设计的768kbit的乘法器硬件电路中,该离散压缩方法减少的旋转因子数据量达98.7%,整体片上占用存储空间降低51.3%。2)设计一种兼容NTT/INTT交替过程的内存寻址算法。通过分析NTT和INTT数据交互规律,本文基于单端口SRAM的多Bank内存结构,设计一种高效的支持无数据冲突访问的寻址算法,可以兼容NTT输出与INTT输入,有效减少大整数乘法器实现过程中数据重排序次数,加速数据交互过程,提高计算速度。3)设计一种高速流水线结构的768kbit乘法器,并进行FPGA和ASIC实现。本文采用单一基16点NTT实现乘法器的核心组件64k点NTT模块,并通过算法分治细化16点NTT的流水线结构。采用加法和移位实现模减、模乘单元,并基于提出的两种创新设计,完成大整数乘法器硬件设计。在64bit的Ubuntu16.04操作系统下,对乘法器进行软件建模与验证,之后部署到Xilinx和Altera两种类型的FPGA开发板上。实验结果显示,硬件设计相对软件模型最大有36倍速度提升,与已有研究成果相比,电路工作频率平均有12.1%的提升,周期数下降6倍,计算时间缩短7倍,ATP性能指标平均有73.92%的提升。最后基于SMIC 40nm工艺,对大整数乘法器进行ASIC开发,设计电路版图。
其他文献
异构多核处理器为嵌入式系统的发展注入了新的活力,由于其集成了多种不同类型的处理核,能够满足多样化的应用需求。相比传统的同构平台,异构多核平台能够极大地提升系统的性能。然而,随着处理核数量和类型的增加,系统资源分配问题也变得愈加复杂。异构多核系统中的映射问题,抽象出来就是如何基于优化目标(性能、能耗等)将任务分配到处理核上,合适的映射方案能够极大地提升系统性能。通常,应用在执行过程中,程序不同的执行
机器对机器(Machine to Machine,M2M)通信以全机械自动化的环境为基础,通过有线或无线链路接入智能设备,使其无需人工直接干预即可互联互通,是下一代通信系统中一项很有前途的技术,广泛应用于智能电网、公共监控、智慧交通、电子医疗保健等领域。目前,M2M主要依靠传统网络进行通信,而传统网络起初是服务于人对人(Human to Human,H2H)设备通信的,又因M2M与H2H通信系统之
伴随现代导航技术的飞速发展,中国自主建设了北斗卫星导航系统,可为全球范围内的军民用户们提供海、陆、空导航定位和授时服务,北斗卫星导航系统的建立快速推动了中国的安全和经济发展等领域的发展。在北斗的高精密定位中,载波相位差分是主要的一种定位方式,主要依赖于载波相位观测值,而周跳是载波相位定位过程中常常遇到的问题,周跳的发生将使载波相位观测值发生变化,大大降低定位精度,因此准确地探测和修复周跳对北斗卫星
作为高精度探测仪器,有源相控阵雷达的阵面天线均能独立收发电磁波,因而有源相控阵雷达能够高效、准确、稳定地探测和跟踪目标,使得它在军事、导航和通信等领域中拥有极其重要的作用。有源相控阵雷达在工作时,由于天线热源的热功耗使得阵面发生热变形,一定程度上恶化了雷达的馈电性能,因而对雷达热变形的仿真预测和补偿研究是提高雷达性能的重要措施之一。采用传统有限元仿真由于并未考虑结构的形体边界约束带来的非相似性热变
伴随着互联网技术的快速发展,基于定位的服务已经融入了我们的生活,变成日常生活中不可缺少的一部分。而随着移动设备的快速更新,许多的移动应用也嵌入了定位功能。在室外环境下,北斗定位系统,全球定位系统(GPS),伽利略系统等等基于卫星信号和雷达的定位技术已经非常成熟,并且由于具有抗干扰能力强,精度高,实时性好等特性,这些定位系统已经可以满足广大人民的日常生活需求。但是在人们经常活动的室内环境中,GPS等
随着集成电路技术的发展,工艺制程逐渐逼近极限,单核处理器已经进入了瓶颈期,多核处理器应运而生,受到了广泛的关注。任务调度算法是多核处理器并行计算能力能否充分发挥的关键因素之一。在对现有多核处理器静态任务调度算法广泛研究的基础上,以基于复制的任务调度算法作为研究对象。针对现有算法中存在的关键路径估算误差较大、解空间搜索不充分等问题,分别提出了面向异构多核处理器的带资源约束的任务复制调度算法TDSA-
随着处理器的发展,仅仅依靠处理器的单核性能来提升整体性能已经遇到了瓶颈,多核处理器的计算并行化是现在以及将来研究的热点,如何合理调度所有的计算单元,使得系统的计算能够并行化展开,提升计算单元的利用率将是提升多核处理器计算性能的关键。围绕上述问题,本文设计了一种面向异构多核计算系统的动态任务调度控制器。通过对系统计算行为的分析,主要实现了动态监控计算单元的负载情况、动态任务唤醒、任务并行性自动提取、
随着物联网和边缘计算的快速发展,智能终端设备由于在硬件资源与供电上受到较强限制,迫切需要满足低功耗要求的新型计算单元。作为一种具有广泛应用前景的高效低功耗计算范式,近似计算(又称为非精确计算)在图像处理、深度学习、物联网、边缘计算及实时信号处理等领域均已表现出明显优势。在这些具有良好容错性的应用中,近似计算通过产生近似的计算结果(足够好但不完全精确的计算结果),获得性能和功耗的大幅优化。因此,相比
随着云计算和安全多方计算等技术的发展,相关技术涉及的数据安全和隐私保护问题也日益凸显。全同态加密可以在无需密钥的前提下对密文进行任意操作,从根本上解决了云计算过程中所面临的数据安全和隐私保护问题,这使得全同态加密具有重要的理论意义和应用价值。基于环上带错学习(Ring-Learning With Error,RLWE)的密码方案具有结构简单、抵抗量子攻击等优点,这使得基于RLWE的密码学成为密码学
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天候、全天时的特点,并且可获取高分辨率的地表图像。然而相干斑噪声影响了SAR图像的应用,因此SAR图像去噪成为了遥感图像处理中的一个重要研究方向。传统的去噪方法具有一定的局限性,无法有效实现去噪能力与结构保持之间的平衡。随着深度学习方法的不断发展,卷积神经网络(Convolutional Neural Network,C