片上大规模并行嵌入式计算:层次结构性能模型及H.264并行加速

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:augenthaler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高性能嵌入式计算深入到现代社会生活、工业生产、军事应用等各个领域,深刻地影响着现代社会的发展。由于实时计算复杂度高、并行性强等原因,现代高性能嵌入式计算系统逐渐从传统的单线程计算模式进化为更体现应用特点的片上大规模并行嵌入式计算模式。然而,在片上大规模并行嵌入式计算中,微处理器体系结构和应用算法等诸方面均面临着新的挑战。以H.264/AVC为代表的高清实时视频压缩在消费电子和专业视频领域均有广泛的应用,其计算复杂度高、并行度高,是典型的高性能嵌入式计算和片上大规模并行嵌入式计算问题。对其进行案例研究不仅能够解决其本身所面临的挑战,而且能为解决其他片上大规模并行嵌入式计算问题的挑战提供思路。本文在对H.264/AVC中的数据相关性、计算复杂性和算法并行计算特性进行分析综述的基础上,对适合片上大规模并行嵌入式计算的层次结构性能模型、H.264/AVC编码器中的串行CABAC(Context-based Adaptive Binary ArithmeticCoding,基于上下文自适应的二进制算术编码)熵编码加速器、CABAC熵编码并行化以及层次结构硬件平台和并行编码器原型系统等方面重点内容展开了研究。本文的主要研究成果和创新性主要体现在以下几个方面:1)提出了层次化片上大规模并行体系结构的Amdahl加速比扩展模型。通过引入层次化片上大规模并行体系结构的非一致性片上数据通信和访存开销模型,本文对Amdahl定律进行扩展,研究了层次结构中多个核耦合形成的超节点对系统性能的影响。通过模型分析发现,要获得良好的性能加速比,层次结构需要在超节点数目与超节点的聚合度(超节点包含的核的个数)之间作仔细的权衡;对于给定核数目的层次化片上大规模并行体系结构,使系统性能最优的超节点聚合度往往出现在中间某个值而不是最大或者最小值,并且该值随着系统规模的变化会发生相应的变化。2)提出了一种采用语法元素指令流驱动的全流水CABAC熵编码结构。已有的CABAC硬件加速器结构未考虑加速器与可编程处理器之间的软硬件协作,而这是片上大规模并行嵌入式计算的一类重要问题。本文提出的CABAC熵编码结构采用规格化的语法元素指令流驱动,使得加速器与CPU之间的接口规整,软硬件能实现有效的分工合作。通过采用细致的流水线结构,本文提出的结构可以每周期处理一个符号。在0.13um标准单元工艺下实现结果显示,本文提出的CABAC硬件加速器仅开销3.21K门逻辑就可达到590Mbps的吞吐率。3)为进一步提高CABAC的吞吐率,本文提出了一种基于语法元素分组的CABAC三线程可并行算术编码算法P3-CABAC,并对其硬件结构和开销进行了评估。与已有的CABAC并行算法关注的是细粒度的符号级并行算法和结构不同,P3-CABAC把每个宏块内待编码语法元素按照一定的规则静态地划分为三组,并用三个线程的资源对其进行并行编码,首次实现了线程级并行算术编码器算法。除处理的语法元素不同之外,P3-CABAC的每个线程编码算法均与标准CABAC相同。这使得P3-CABAC的线程级并行算法与已有CABAC快速算法正交,二者可在同一系统同时使用。软件模拟发现,对于高清视频序列,P3-CABAC在不超过3%的码率代价下,可达到最高2.68的加速比。对P3-CABAC的硬件结构进行分析发现,相比前文的CABAC加速器,P3-CABAC的硬件结构仅需付出60%左右的额外硬件开销。4)提出了一种基于局部集中式共享存储超节点的层次化64核片上多DSP体系结构平台,并对其性能优势进行了评估。根据层次结构Amdahl性能模型研究结果,本文利用4个精简DSP、通过共享存储器的方式耦合形成超节点;16个超节点通过片上互连结构形成该层次化64核片上多DSP体系结构。通过在其Verilog行为级模型上进行软件算法映射,本文对该层次结构的性能进行了初步评估。实验结果发现,相比比非层次化64核多DSP系统,即便不采用特殊的局部化映射算法,该64核层次化片上多DSP系统仍然获得了最高1.55的系统加速比。这充分体现了层次结构的性能优势。5)在已有64核层次化片上多DSP体系结构平台基础之上,本文构建了集成P3-CABAC加速器的宏块级/子任务级混合并行H.264/AVC主要档次编码器软硬件原型系统。该原型系统用一个包含P3-CABAC硬件加速器的专用超节点替换了64核层次化多DSP平台中的一个普通超节点,构成硬件平台。软件算法采用宏块级数据并行和宏块内子任务并行相结合的混合并行机制:在所有15个常规超节点间以超节点为单位进行宏块级并行,而在每个超节点内部的4个DSP核之间进行宏块编码子任务级并行。同时,采用课题组之前提出的CABAC码率估计技术突破了复杂率失真优化模式选择对主要档次宏块级并行算法的限制。在节拍精确的超节点模拟器上进行的初步模拟和结果分析发现,该异构原型编码器对高清视频序列可达到平均约50的加速比。综上所述,本文的研究从典型实例出发,研究成果不仅为以片上大规模并行的方式解决H.264/AVC实时高清视频编码提供了技术储备,也为解决其他片上大规模并行嵌入式计算问题面临的软硬件挑战提供了借鉴思路。
其他文献
高功率微波装置在运行时面临的高热流密度散热是当前热控必须解决的难题。微小通道热沉散热结构简单,换热能力突出,在一定程度上能够解决高热流密度散热的问题。但使用微小通
1 问题的提出在学生的数学学习中,问题解决的学习占有重要的地位.义务教育新课程标准(数学)中把解决问题作为单独的一个领域提出要求:(1)初步学会从数学的角度提出问题、理
<正> 近几年来,我们参阅有关文献,结合现代药理研究,经过多次改进及不断完善,组成了以鸡内金、枳实、白蔻、甘草等中药为主的中药胃清洗剂口服液(以下称胃清洗剂),通过251例
针对热处理生产过程中流程进行分析,结合自己工作实践提出相关可行处理方式,以便供热处理行业作为管理评估参考。
变态反应性鼻炎的中医药治疗近况烟台市中医医院(264001)周永红关键词变应性鼻炎;中医药疗法;综述变态反应性鼻炎,又称过敏性鼻炎,是发生在鼻粘膜的变应性疾病,临床以发作性鼻痒、鼻塞、喷
为了提高热轧带钢粗轧机组宽度控制精度和提高成材率,广泛开展了粗轧机组金属变形规律的研究。本文以宝钢2050粗轧机组的现场条件为背景,对HV(H:平轧,V:立轧)调宽轧制过程进行
<正>樊瑞红教授为天津中医药大学硕士研究生导师,天津市中医药研究院附属医院心病科学科带头人,主任医师,从医30余载,是天津市名老中医师带徒指导老师,为第二批全国名老中医
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为了分析城市地下综合管廊施工中锚栓和拼接缝受力变形规律,采用土体非线性弹性本构模型对土体的地层变形进行了表征,提出了一种装配式地下综合管廊施工过程的有限元数值模拟