【摘 要】
:
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存
【机 构】
:
计算机体系结构国家重点实验室(中国科学院计算技术研究所),中国科学院计算技术研究所,中国科学院大学计算机与控制学院
【基金项目】
:
国家重点研发项目(2018YFB0204400),中国科学院战略性先导科技专项(C类)(XDC05010100),国家自然科学基金项目(62032023,61972377,61702483)
论文部分内容阅读
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一
其他文献
山东省夏津县宋楼镇时庙村是大棚番茄种植专业村,去年以来,该村的100户菜农在笔者帮助和指导下,采取了“春提前茬”和“秋延迟茬”一年两种两收栽培新模式,种植大棚番茄20 hm
图计算已成为大数据处理领域的主流应用,采用特定硬件加速可以显著提高图计算的性能和能效.众所周知,硬件代码的编写和验证十分耗时,尽管通用高层次综合(high level synthesi
作为目前主流的大数据流式计算平台之一,Storm在设计之初以性能为目的进行研究而忽视了高能耗的问题,但是其高能耗问题已经开始制约着平台的发展.针对这一问题,分别建立了任