高性能安全可靠的非易失内存系统关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ztqye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代产生了海量数据,大数据应用对内存系统提出了三方面的挑战,包括计算密集性、信息安全性以及海量数据存储。传统的内存由于功耗高、可扩展性差等缺陷,无法满足大数据应用的需求。新兴的非易失内存介质以其低功耗、存储密度高、扩展性好等优良特性,为解决这些问题带来了希望。然而,如何使用非易失内存技术,克服非易失内存自身的不足,构建高性能安全可靠的非易失内存系统,仍然需要深入的研究。本文围绕大数据应用的三方面挑战,针对非易失内存系统展开研究,具体的研究工作和创新点如下:(1)基于移位的卷积神经网络加速器本文利用非易失内存技术应对大数据应用的计算密集性挑战。以人工智能应用为例,它的卷积神经网络具有大量的计算和存储开销,为了减少计算和存储开销,将权重定量化是一种常用的方法。基于移位的卷积神经网络就是权重定量化的一种,它将乘法运算转化成了更为简单的移位运算。然而现有的神经网络加速器都是优化乘法运算,并不能有效地加速基于移位的卷积神经网络,无法取得最优的加速效果。因此,本文研究如何加速基于移位的神经网络的图像识别过程。本文利用赛道存储器的移位特性设计一个神经网络加速器DWMAcc,它是基于赛道存储器构建的,对图像输入数据和权重采用了不对称的存储方式,有效地提升了图像识别速度。它灵活地支持移位操作,从而能够以较小的性能和面积开销,取得最优的效果。同时,在该设计中,本文提出三种优化机制,分别是零共享机制、输入数据重用机制和权重共享机制。通过相关实验测试,和最新的基于SRAM的加速器相比,DWMAcc能够实现16.6倍的性能加速以及85.6倍的能效提升。(2)非易失内存的高效双计数器加密机制为了保护用户数据的安全性,常用的方法是采用基于计数器的加密算法对内存中的数据进行加密,并使用基于AES的校验机制保证数据的完整性。然而,非易失内存系统有宕机一致性的要求,为了保证计数器和用户数据的一致性,这些安全机制会导致大量的性能开销。当计数器和用户数据的逻辑地址关联时,则它的计数器就容易溢出,进而给安全的非易失内存系统带来巨大的寿命和性能开销。因此,本文提出了双计数器加密机制Extra CC,解决安全非易失内存系统的性能和寿命缺失的问题。本文在原本的计数器基础上,额外保存了一个计数器,不仅保证了计数器的访问局部性,而且有效地减少了计数器的写开销,提升了系统的性能和寿命。通过实验测试,Extra CC可实现15.2%的性能提升和20.5%的写负载减少。(3)非易失内存的高效完整性校验机制为了应对大数据应用的信息安全挑战,安全的非易失内存系统设计需要考虑到数据持久化特点,又要兼顾传统安全存储系统中的数据机密性和完整性保护。简单地将现有的完整性校验机制应用到非易失的内存系统中,会产生不可忽略的开销,导致性能下降,非易失内存的寿命缩短以及能耗增加。因此,本文针对安全非易失内存系统中数据的完整性校验开销问题,提出了高效的完整性校验机制Cache Tree,通过在安全元数据cache上构建额外的校验树,Cache Tree能够对易失的cache内容进行完整性验证,从而使得元数据的更新可以采用写回策略,防止持久化元数据过程中频繁地写入非易失内存。通过实验测试,Cache Tree以不到0.5%的存储开销,最多可将系统性能提高20.1%,寿命增加44.3%,能耗减少43.7%。(4)大容量非易失内存设计为了应对大数据应用的海量数据存储挑战,需要构建大容量的非易失内存系统。传统的DRAM在能耗和可扩展性方面临挑战,由闪存Flash和DRAM组成混合的内存系统是解决这两方面的挑战的好方法。然而,在这个混合的内存系统中,传统内存和Flash之间的访问粒度是不一致的,并且通用的缓存替换方案专注于高命中率,导致了性能和寿命的降低。因此,本文提出TBuffer机制,在DRAM中构建一个额外的小缓存。接着本文设计两种优化机制:历史感知的冷热识别机制和Lazy Flush机制。历史感知的冷热识别机制可以通过驱逐冷的数据块,并在DRAM中保持比较热的数据块来提高DRAM的数据命中率;而Lazy Flush可进一步通过延迟刷新脏的数据块,从而减少对闪存的数据写入,进一步提高系统的性能和寿命。通过实验测试,它最多可以提高12%的命中率,平均减少19.7%的访问等待时间以及延长16.6%的寿命。
其他文献
随着片上系统规模的不断扩大和处理核数的增多,系统对于片上Cache在容量和速度方面有了更高的要求。为了能够有效利用Cache资源,通常采用非一致Cache访问(NUCA)结构以支持高容量低延迟的Cache组织。另一方面,片上网络由于具备良好的可扩展性在片上众核处理器的互连方式上具有显著优势。因此,基于片上网络的非一致Cache访问体系结构逐渐成为未来众核处理器用于组织大容量Cache的主流系统架构
同时定位与建图(SLAM)是计算机视觉领域的重要问题,在无人驾驶、自主导航、成像制导、侦察等领域有着广泛应用。红外相机可以在夜间、雾霾、光照差的环境下成像,具有全天工作能力,因此红外SLAM比可见光SLAM的潜在应用场景更广。但是由于红外数据获取困难、图像纹理弱、信噪比低,国内外对红外SLAM的研究十分有限。本文以适用于红外成像的SLAM系统为研究目标,在研究过程中主要解决了红外相机标定、SLAM
云计算平台是支撑互联网应用服务和大数据处理不可替代的基础设施,已经广泛应用于人类的生产、生活和城市治理的方方面面,呈现出大量数据密集型应用和日益提高的多应用粘合度,这不断加剧了云计算平台的I/O压力。为了支持应用迁移,提高云服务可靠性,云计算平台中的虚拟机使用分布共享存储资源来存储其关键数据。共享存储通过内部网络(如以太网)互连,大数据量存取的带宽可超过单磁盘带宽,但是,在小量数据存取时,延迟大,
基于计算机视觉的自动图像分割是机器辅助医疗图像分析任务中至关重要的步骤。自动且快速地获取具有准确分割掩码的医疗图像,对于帮助医生提高诊断精度、速度以及针对不同病人提供个性化的治疗方案具有重要的意义,针对该技术的研究也是当前科研领域的热点方向。在所有的研究问题当中,由于受到医疗图像独有的对比度低、噪声大、伪影多、内存占用量大以及获取标注信息困难等特性的影响,表示学习成为了提高医疗图像分割性能的核心方
随着5G、物联网、云计算的发展和行业数字化进程的深入,互联网流量爆炸式增长,网络应用也日趋复杂化和多样化,要求网络设备不仅具备极高的处理性能,还应具有极好的灵活性,能够提供面向新型协议、业务的快速定制及优化能力。然而,网络处理器作为网络设备的核心处理单元,采用通用多核或者专用多核的实现方式,难以同时兼备极高的处理性能和良好的灵活性。基于通用多核实现的网络处理器虽然具有极好的灵活性,但存在报文处理吞
随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计
电磁逆散射成像是逆问题的一种,其非适定性和非线性为目标的高质量重建提出了极大挑战。在电磁逆散射问题的实际模型中,只能获取关于目标的有限信息,实现精确重建十分困难,因此开展高分辨精确成像技术研究具有重要意义。本文主要从三个方面开展研究:第一,现有成像算法中缺乏对超分辨成像机理的深入研究,本文提出了一种基于轨道角动量(Orbital Angular Momentum,OAM)电磁波的超分辨成像算法,详
在信息经济时代,信息管理需依赖于计算机技术、网络与通信技术等最新成果,将各类分布式信息资源互联互通,以此实现系统的整体优化和规模优势。数据中心网络是目前最重要的网络技术之一,它将大量计算和存储服务器连接起来,以更经济更便捷的方式达到高速计算和海量存储等需求。然而,数据中心网络内部网络拓扑的改变,交换机的升级,虚拟机的迁移,交换机和链路失效等都会引起数据中心网络更新,即流量传输路径的改变,这给数据中
IC产业全球化已经成为促进信息革命深入发展的中流砥柱。2000年,中国提出加速融入全球IC生态体系,形成各地区多级并举发展格局。然而,关系国脉民命的全球化背后安全隐患暗流涌动。2016年,A2问世标志着微观层面的黑客逻辑已经极为隐蔽,可令传统数字安全工具束手无策。现实困境倒逼技术革新,催生版图分析和旁路分析等重要成果。版图分析已可检测IC中布线级电路信息,但是该技术面临的经济和时间代价使其难以推广
经典的陆用定位导航技术,如惯性导航以及惯性与里程信息、地标信息、零速停车信息、卫星信息的组合导航技术等,在满足长时间大范围工作情况下机动、快速、自主导航定位的作战使用需求时,都有着各自的技术缺陷。为了突破陆用导航领域传统技术方案,本文对高精度惯性定位定向地图信息匹配导航技术进行研究,提出了采用地图匹配辅助惯性定位定向方法,提高长航时大半径情况下的自主定位精度,对提升快速自主精确能力并降低保障要求与