面向图搜索的流寄存器文件设计与协同BFS算法优化

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zhangkun289
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的迅速发展,大数据应用日益火热。图搜索问题是大数据应用中的经典问题,BFS算法是图搜索中的核心算法也是Graph500测试基准中的核心搜索程序。BFS算法具有访存量大、运算简单、每访存字节操作比低的特征,另外地,BFS算法中的访存呈现出不规律的特征,其时空局部性较差,这导致商用处理器中在运行BFS算法时cache的失效率过高。基于上述考虑,课题组参考流处理器中的结构,开发了多核交叉多线程的流处理器原型,用SRF来替代cache在存储层次中的位置,然而在该原型中,一方面由于SRF延迟过高导致SRF的实际带宽过低;另一方面由于算法访存过多导致性能不高。本课题采用软硬件协同优化的方法,首先在商用处理器上对BFS算法进行了分析和优化,然后对流处理器原型中的SRF进行了设计与实现,最后在该流处理器上对BFS算法进行了设计和优化,最终提高流处理器原型的性能。首先,本文在商用处理器上对并行BFS算法进行了分析和优化。分别从减少访问延迟、减少访问次数、增大数据的局部性等方面来减少访存的开销,以提高程序的性能。先后实现了混合算法、面向NUMA结构的算法、采用数据预处理技术的算法,提出了关键数据结构的混合表示的优化方法,并通过pthread、OpenMP两种并行编程语言进行了实现,比较了在两种语言下,各种优化技术对算法的加速比。然后,针对流处理器原型中SRF指令访问延迟较高的问题,设计并实现了私有SRF和共享SRF两种结构。私有SRF结构下SRF指令可以实现无延迟,共享SRF结构可以使核间在SRF中实现共享。文章重点对共享SRF结构中的交叉开关进行了设计,在无SRF体访问冲突时,访问并发度可以达到8。最后,针对两种不同SRF结构的流处理器特征,分别设计了基于私有SRF结构的BFS算法以及基于共享SRF结构的BFS算法。在基于共享SRF的结构中,重新设计了SRF指令格式,并设计了关键数据在SRF中的组织,对BFS算法进行了优化。实验测试表明,私有SRF结构下,算法性能比原流处理器的算法性能提高了92%,共享SRF结构下的算法性能比私有SRF结构下的算法性能提高了13.8%。
其他文献
随着互联网的普及和科技的发展,包括新闻网站、微博在内的网络平台逐渐成为大众获取信息的重要渠道。面对各网络平台上海量的数据信息,如何快速从中获取自己需要的信息已经成
电力载波传感器网络采用低压电力线作为物理传输信道,通信信道的时变性、噪声干扰强及信号衰减大等固有特点易造成网络链路不稳定、拓扑结构复杂。网络运行时,某些节点容易失效
信息隐藏是在图像、音频、视频等数字媒体中嵌入不可察觉的隐蔽数据。隐藏检测就是以各种手段检测这些可疑信息的存在。有些类型的媒体信号因为广泛流行,而且便于传播和流通,
学位
基于规则的口语对话系统中的文法规则通常由领域专家和计算机语言学家手工设计,需要依赖专家的专业知识和经验,这对于普通开发人员来说是无法完成的。另外,手工设计的文法移植性
面向服务架构(SOA)是一种以服务为中心的体系结构,是一套抽象的概念和软件架构的指导方针,是信息技术与具体业务之间的桥梁。SOA通过将原有的应用和资源转变为可共享的标准服务
随着可视化信息技术的不断发展,视频信息的传输已经成为当今信息传递的方向和目标。因此,视频压缩技术自然成为了学者们的研究热点。近年来,由MPEG和VCEG的专家组成的联合视
在税控样机研制成功后的下一个目标之一就是研发一对多的网络税控器,本文正是基于此背景,重点研究利用多线程等技术实现一对多的数据处理模型。本课题在对GB18240.7税控管理系统和一对多总体设计的模型架构进行概要叙述后,着重就一对多税控处理的总体算法进行研究,在对税控器端所采用的服务模型经过反复论证的基础上,最终确定税控器端采用有线局域网环境下的tcp连接与多线程服务器形式作为模型实现的框架。由于税控
随着我国经济的迅速发展,人们的物质生活质量有了很大的提高,但环境问题也接踵而来,给人们的生活带来了严重的影响,环境保护已经成为我国亟待解决的问题,然而传统的环境管理
人脸识别是模式识别和计算机视觉领域的一个重要研究方向。本文针对在资源受限的嵌入式设备PDA中开发人脸识别系统出现的问题,结合目前的人眼定位和人脸识别方法的优点,提出了