论文部分内容阅读
“存储墙”问题一直是制约处理器性能的关键瓶颈,计算与存储的速度鸿沟导致CPU的运算能力因为需要等待存储器的数据而大量虚耗。在片上多核的处理器环境中,多个处理器核对共享存储资源的竞争使得访存问题更加突出。尤其现代大数据量科学计算和多媒体应用进一步扩展了多数据流向量计算需求,具备向量计算能力的处理器每次处理的数据量更大,存储器的读写速度远不能满足运算的需求。因此,研究处理器与存储器之间的数据传输问题、挖掘向量结构处理器功能部件的并行性具有非常重要的意义。
本文对传统向量处理器的存储系统进行了改进,在向量寄存器堆和二级Cache/DDR2控制器之间开辟了一条直接的数据通路,实现了一个灵活配置的多通道向量DMA控制器,在不改变系统原有访存模型的基础上大大提高了向量部件数据传输的有效数据带宽,能有效缓解“存储墙”问题,更细粒度的提高了程序的并行度。实验表明,基于本文设计的向量DMA控制器,FFT程序的运行时间平均减少40%以上,计算与数据传输并行度达到70%。
本文的主要贡献有:
1.分析了实际应用的数据流特点,设计实现了一个包含三条读通道和一条写通道的向量DMA控制器,同时解决了多通道竞争总线时的优先级分配问题;
2.将大规模数据传输任务拆分成多个小的子任务,并引入一组握手信号标记各子任务的完成情况,通过处理器与DMA的实时交互,更细粒度地提高了处理器的并行性;
3.支持在读通道按列优先顺序写向量寄存器、写通道完成位元反转操作等功能,减轻了处理器进行FFT运算时所需的指令条数和运算负担,也减少了硬件的开销,节省了处理器功耗。