低功耗高速缓存无效缓存路访问混合过滤机制研究

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:yuhong8109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  近年来,功耗是处理器设计领域的关键问题之一.由于片上缓存占有了越来越多的CPU 芯片面积和功耗,本文提出了通过过滤不必要的缓存路访问来降低缓存动态功耗的方法.方法包括采用无效访问过滤器(Invalid Filter)来消除对含无效数据块的缓存路的访问;采用指令数据访问过滤器(I/D Filter)来消除对与访问类型(指令或数据)不匹配的数据块所在的缓存路的访问;以及采用tag低位过滤器(Tag-2 Filter)来消除对tag 低位不匹配的数据块所在的缓存路的访问.本文提出将以上三种方法合并,称为Invalid+I/D+Tag-2 Filter,以期取得更好的效果.实验表明,与Invalid+I/D Filter 相比,Invalid+I/D+Tag-2 Filter 在64KB 4 路组相联缓存上可以取得19.6%-47.8% (平均34.3%)的效果提升,在128KB 8 路组相联缓存上可以取得19.6%-55.2% (平均39.2%)的效果提升;与Invalid+Tag-2 Filter 相比,Invalid+I/D+Tag-2 Filter 在64KB 4 路组相联缓存上可以取得16.1%-27.7% (平均16.6%)的效果提升,在128KB 8 路组相联缓存上可以取得6.9%-44.4%(平均25.0%)的效果提升.
其他文献
建立化妆品中硝酸咪康唑含量的高效液相色谱的检测方法.化妆品样品经甲醇,三氯甲烷(1∶1)超声提取,采用高效液相色谱法,二极管阵列检测器.方法检出限为10ng,定量限为35ng,在5μg/ml~150μg/ml范围内线性良好(r=0.9992),三个浓度水平的加标回收率在90%~110%之间,精密度RSD=0.18%,重复性RSD小于5%,该方法能够满足化妆品中硝酸咪康唑的含量测定,该方法简单,快速
目的:对化妆品中酮康唑禁用物质,水杨酸、氯米吧唑、吡罗克酮乙醇胺盐限用物质进行检测.方法:采用乙腈+甲醇+0.01 mol/L磷酸二氢钾水溶液(50∶10∶40)为流动相,DAD检测器,230 nm及300 nm两种波长进行检测,并经光谱匹配进行定性.结果:发现与酮康唑保留时间相同的峰,经光谱匹配确定后并不是该禁用物质.该方法精密度RSD均小于5%.加标回收率为92.3%~102.0%,最低检出限
目的:本研究对中国三大地区健康受试者皮肤颜色进行定量测量并对受试者进行年龄段划分,了解中国人不同年龄段人群皮肤颜色差异,并对用于美白功效评价的测试部位进行了选择.方法:利用色差测试仪测量中国三大地区600名四个年龄段受试者的额头、左脸颊、左手臂内侧、手面等四个部位的皮肤颜色.采用L★a★b★色度系统测量值计算得出每一个志愿者的个人类型角(Individual Type Angle,ITA.).结果
本文提出了一种新的基于多层多基因表达式编程的进化算法M-MEP.本算法引入了多层超级染色体概念并采用多层染色体模型对个体进行并行表达,算法在解决函数发现和预测问题中取得了良好的效果.本文的主要贡献:(1)提出了基于多层染色体的多基因表达式编程算法M-MEP; (2)建立了不同子层染色体内部微基因跨层引用的模型以及多级存储结构;(3)提出了基于二维空间的染色体多元化遗传操作,包括二维交叉操作和二维变
本研究从CFD 实际应用背景出发,综合多核与众核的特点,采用OpenMP 线程嵌套以实现CPU/GPU 的协同并行计算,实现了雅可比迭代法的GPU 加速以及OpenMP/CUDA 混合并行算法,并将其用于结构网格气动外流场的数值模拟.对单区200万结构网格数据,右端项、左端项矩阵及矩阵求逆、雅可比迭代等核心计算部分的GPU 并行分别取得了11.35、13.83 和8.34 倍的加速比,整个求解过程
资源分配策略是云计算研究领域中的一项重要研究点,研究人员提出了多种资源共享与分配策略,然而很少有工作关注不同云计算服务的用户群体的行为习惯对资源分配策略的影响.该文提出的基于用户行为特征的资源分配策略就是通过统计用户工作习惯与任务完成时间期望值在时间轴上的变化规律出发,建立用户行为特征信息表,从而预测出不同时间片内用户的任务提交规律以及用户期望完成时间,动态调整云计算环境中的资源分配策略,使得系统
由于多用户网络应用中存在的众多不确定性,当前的调度方法在动态性,实时性,适应性方面都不同程度存在不足。考虑到其实时性需求,提出了概率型调度的思想,压缩调度时间。该思想将任务的分配看作一个概率事件,而传统的调度是确定的。此外,概率型调度还具有对任务执行时间估计不敏感、性能稳定等所需的优势。基于该思想,以用户角度的最短响应时间为目标,给出了多用户网络应用的一个排队模型,并进一步将调度定义为一个非线性规
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,不具有足够的高性能计算能力。本研究将具有超强并行计算能力的GPU与云计算进行融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式,对MapReduce函数中需要并行的部分进行标记。通过定制GPU类加载器将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计
深度包检测(Deep Packet Inspection,DPI)是一种先进的包过滤技术,广泛应用于防火墙中。基于正则表达式的模式匹配算法已成为实现DPI重要方法之一,传统的正则表达式匹配算法的时间复杂度较高,不能实时进行网络安全的防护。为了提高正则表达式匹配算法的实时性,本文提出一种基于分布式存储的正则表达式匹配并行算法,该算法通过对数据进行步长计数,采用分布式存储,实现并行处理。通过实验分析,
云计算是一种新兴的计算模式,倡导一切皆服务.云计算由于能够共享分布在世界各地的计算资源,在大规模计算和数据存储中越来越受到重视.云计算是当前IT工业界、学术界研究的热点领域,云环境中的资源可用性已成为云计算不可忽视的问题.对于云计算,当处理器的处理速度不同,不是一直可用于计算时,可用性成为设计和发展云计算系统的关键需求.根据并行任务图的结构特点,讨论了影响并行任务可用性需求的关键因素,给出一种可用