一种支持高带宽矩阵转置传输的DMA设计与实现

来源 :第十七届计算机工程与工艺年会暨第三届微处理器技术论坛 | 被引量 : 0次 | 上传用户：ananjuben

【摘要】

：

高性能DSP需要使用大量的数据,直接存储访问(DMA)是DSP系统中提供高速数据传输,有效提升计算性能的重要技术.本文提出了一种能在数据传输过程中完成矩阵转置操作的DMA控制器

【作者】

：

张帅孙书为马胜李勇万江华刘胜杨柳

【机构】

：

国防科技大学计算机学院长沙410073

【出处】

：

第十七届计算机工程与工艺年会暨第三届微处理器技术论坛

【发表日期】

：

2013年7期

【关键词】

：

数字信号处理器控制器结构设计直接存储访问矩阵转置乒乓机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高性能DSP需要使用大量的数据,直接存储访问(DMA)是DSP系统中提供高速数据传输,有效提升计算性能的重要技术.本文提出了一种能在数据传输过程中完成矩阵转置操作的DMA控制器设计.该设计的数据总线为1024位,支持较高数据带宽.本文支持在运行时根据需求动态配置矩阵单元数据粒度,共支持64位和128位两种粒度.最后,设计采用乒乓机制有效提升数据乱序返回情况下的矩阵转置操作效率.实验结果表明,本文提出的设计能在较低硬件开销情况下支持较高性能.

其他文献

基于多源数据融合的网络安全态势感知

　　网络安全态势感知是当前分析复杂网络安全态势的有效方法之一。本文描述了网络安全态势感知的概念和模型，提出了基于多源数据融合的网络安全态势感知模型。采取基于信息融

会议

多源数据融合网络安全安全态势态势感知信息融合系统安全D-S证据理论融合网络

TNF-α与 chemerin 信号通路在前脂肪细胞分化中的细胞水平作用机制研究

学位

高性能浮点与定点转换部件的设计与实现

随着计算机发展水平的提高，数字信号处理器正逐渐转向大规模、高精度、宽并行方向发展。在高速数字信号处理中,由于浮点数能够提供较高的精度和较大的数据表示范围,浮点运算已

会议

数字信号处理器数据转换部件结构设计浮点运算

一种高性能图像匹配处理加速部件的设计与实现

　　本文设计和实现了一款高速图像匹配处理加速部件。它能够支持128比特接口的高速数据传输，模块化的逻辑结构，以及针对图像匹配需求的高速处理电路。重点研究了该部件的算法，

会议

高性能图像匹配匹配处理加速部件高速数据传输数据网络逻辑结构接口结构

一种高效的基于FIFO的共享端设备输入缓冲

　　在多核处理器中，如何提高多核的并行处理能力和实现更高的存储带宽是研究的重点，而高效的输入缓冲是在较少的资源开销下提高多核处理器上下级间的传输效率和实际带宽利用率

会议

FIFO存储设备多核处理器输入缓冲带宽利用率资源开销有效途径缓冲结构

一种可配置的标量数据存储器设计与实现

　　Cache/SRAM可配置的数据存储器可根据不同应用需求动态配置为Cache、SRAM等多种访存模式,能明显提高嵌入式DSP使用的灵活性和存储效率.本文基于自主研发的一款高性能DSP

会议

40nm工艺下32位乘法器的设计与优化

　　本文介绍一款采用半定制设计方法设计的32位乘法器.本设计以传统的乘法器设计为基础，通过改进的基4 booth编码方式有效地减少了部分积的个数，并基于40nm工艺下的标准单元搭

会议

基于蚁群神经网络的工业自动化PID控制器参数优化

针对常规方法无法获得最优PID控制器参数的缺点,提出一种基于蚁群神经网络的PID控制器参数优化方法(ACO-RBFNN).ACO-RBFNN将PID控制器的3个参数作为RBF神经网络的输入,系统的

会议

蚁群神经网络工业自动化控制系统PID控制器RBF神经网络参数优化方法参数自学习在线优化蚁群算法

内存系统模型与性能分析

　　内存系统性能存在不确定性。内存系统带宽压力较大时，内存系统排队延迟占据访存延迟绝大部分。内存系统排队延迟取决于访存请求到达速率和内存命令处理速率。内存命令处理

会议

X-DSP DMA中仲裁机制的设计与实现

合理公平的仲裁策略可以高效分配硬件资源,有效地兼顾各个设备性能需求,最大限度地发挥系统效率.本文描述了X-DSP DMA控制器中多个部件仲裁机制的设计与实现.通用通道采用物

会议

数字信号处理器控制器结构设计仲裁机制传输顺序灵活性

一种支持高带宽矩阵转置传输的DMA设计与实现

与本文相关的学术论文