可配置向量DMA设计与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:eddiechen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“存储墙”问题一直是制约处理器性能的关键瓶颈,计算与存储的速度鸿沟导致CPU的运算能力因为需要等待存储器的数据而大量虚耗。在片上多核的处理器环境中,多个处理器核对共享存储资源的竞争使得访存问题更加突出。尤其现代大数据量科学计算和多媒体应用进一步扩展了多数据流向量计算需求,具备向量计算能力的处理器每次处理的数据量更大,存储器的读写速度远不能满足运算的需求。因此,研究处理器与存储器之间的数据传输问题、挖掘向量结构处理器功能部件的并行性具有非常重要的意义。   本文对传统向量处理器的存储系统进行了改进,在向量寄存器堆和二级Cache/DDR2控制器之间开辟了一条直接的数据通路,实现了一个灵活配置的多通道向量DMA控制器,在不改变系统原有访存模型的基础上大大提高了向量部件数据传输的有效数据带宽,能有效缓解“存储墙”问题,更细粒度的提高了程序的并行度。实验表明,基于本文设计的向量DMA控制器,FFT程序的运行时间平均减少40%以上,计算与数据传输并行度达到70%。   本文的主要贡献有:   1.分析了实际应用的数据流特点,设计实现了一个包含三条读通道和一条写通道的向量DMA控制器,同时解决了多通道竞争总线时的优先级分配问题;   2.将大规模数据传输任务拆分成多个小的子任务,并引入一组握手信号标记各子任务的完成情况,通过处理器与DMA的实时交互,更细粒度地提高了处理器的并行性;   3.支持在读通道按列优先顺序写向量寄存器、写通道完成位元反转操作等功能,减轻了处理器进行FFT运算时所需的指令条数和运算负担,也减少了硬件的开销,节省了处理器功耗。
其他文献
随着工艺集成度的增大和芯片主频的提高,功耗已经成为限制处理器性能提高的主要因素。过高的功耗影响了芯片的可靠性和寿命,增加了冷却成本,限制了部分高性能处理器应用于移动终
传统的IT系统管理只是强调对IT基础设施的监控管理,而未考虑与这些设施关联的上层服务。基于服务的管理方式将上层服务与底层基础设施关联起来,确保在服务的关键流程被中断或用
群是近年来即时通信平台中日益流行的概念,她比普通的好友分组具有更多的含义,更丰富的功能。用户可以在群内相互交流意见,共享资源,开展集体活动,协同办公。服务器运营商可以利用
近年来,GPU(Graphic Processing Unit)并行加速技术成为解决高复杂度计算问题的重要手段,特别是2007年NVIDIA公司的CUDA(Compute Unified Device Architecture)平台推出后,对多
人类对超级计算的性能追求从未止步。计算机Top500的统计结果表明,从1993年到2010年,超级计算机的性能一直保持每3年提升一个量级的速度。超并行处理(HyperParallel Ptocessing
改善无线Mesh网吞吐量是当前无线Mesh网研究中的关键问题。随着无线电技术的发展,无线接口已逐渐具备频率捷变的特性,即无线接口能在短时间内动态地重配置通信信道的中心频率与
群机器人是典型的群体智能系统,主要研究一群能力相对有限的自主移动机器人如何在有限感知情况下,通过局部交互机制涌现出群体智能行为来合作完成相对复杂的规定任务。群机器
随着集成电路制造和设计技术的不断进步,芯片中晶体管的数目以指数性增长,这导致电路的测试数据量和测试时间急剧增加,测试成本显著上升。测试压缩技术在保障测试质量的前提下,能
近年来,辅助盲人使用计算机的软硬件技术取得了长足的进展,盲人使用计算机已经越来越方便。然而,还是有一些因素使得我国盲人无法和明眼人一样熟练便捷的使用计算机,其中,输入汉字
随着计算机和网络技术的迅猛发展,传统的工业生产正逐渐向以计算机为主导的自动化控制生产转变。在煤炭行业,发展以计算机自动化控制为核心的采煤工艺和监控技术,是近年来煤