一种支持高带宽矩阵转置传输的DMA设计与实现

来源 :第十七届计算机工程与工艺年会暨第三届微处理器技术论坛 | 被引量 : 0次 | 上传用户:ananjuben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高性能DSP需要使用大量的数据,直接存储访问(DMA)是DSP系统中提供高速数据传输,有效提升计算性能的重要技术.本文提出了一种能在数据传输过程中完成矩阵转置操作的DMA控制器设计.该设计的数据总线为1024位,支持较高数据带宽.本文支持在运行时根据需求动态配置矩阵单元数据粒度,共支持64位和128位两种粒度.最后,设计采用乒乓机制有效提升数据乱序返回情况下的矩阵转置操作效率.实验结果表明,本文提出的设计能在较低硬件开销情况下支持较高性能.
其他文献
  网络安全态势感知是当前分析复杂网络安全态势的有效方法之一。本文描述了网络安全态势感知的概念和模型,提出了基于多源数据融合的网络安全态势感知模型。采取基于信息融
学位
随着计算机发展水平的提高,数字信号处理器正逐渐转向大规模、高精度、宽并行方向发展。在高速数字信号处理中,由于浮点数能够提供较高的精度和较大的数据表示范围,浮点运算已
  本文设计和实现了一款高速图像匹配处理加速部件。它能够支持128比特接口的高速数据传输,模块化的逻辑结构,以及针对图像匹配需求的高速处理电路。重点研究了该部件的算法,
  在多核处理器中,如何提高多核的并行处理能力和实现更高的存储带宽是研究的重点,而高效的输入缓冲是在较少的资源开销下提高多核处理器上下级间的传输效率和实际带宽利用率
  Cache/SRAM可配置的数据存储器可根据不同应用需求动态配置为Cache、SRAM等多种访存模式,能明显提高嵌入式DSP使用的灵活性和存储效率.本文基于自主研发的一款高性能DSP
会议
  本文介绍一款采用半定制设计方法设计的32位乘法器.本设计以传统的乘法器设计为基础,通过改进的基4 booth编码方式有效地减少了部分积的个数,并基于40nm工艺下的标准单元搭
会议
针对常规方法无法获得最优PID控制器参数的缺点,提出一种基于蚁群神经网络的PID控制器参数优化方法(ACO-RBFNN).ACO-RBFNN将PID控制器的3个参数作为RBF神经网络的输入,系统的
  内存系统性能存在不确定性。内存系统带宽压力较大时,内存系统排队延迟占据访存延迟绝大部分。内存系统排队延迟取决于访存请求到达速率和内存命令处理速率。内存命令处理
会议
合理公平的仲裁策略可以高效分配硬件资源,有效地兼顾各个设备性能需求,最大限度地发挥系统效率.本文描述了X-DSP DMA控制器中多个部件仲裁机制的设计与实现.通用通道采用物