【摘 要】
:
在OGRE 3D的场景管理器模块下增加渲染队列副本,采用基于Boost线程库的相关信号量和函数构建OGRE 3D多线程模型,建立前后台读写缓冲并形成流水机制,实现OGRE 3D在多核平台下的并行加速。测试结果表明,OGRE 3D渲染速率达到原来的2-3倍,有效提升了OGRE 3D的场景渲染性能和CPU剩用率。
【机 构】
:
College of Information Technical Science, Nankai University, Tianjin 300071, China
论文部分内容阅读
在OGRE 3D的场景管理器模块下增加渲染队列副本,采用基于Boost线程库的相关信号量和函数构建OGRE 3D多线程模型,建立前后台读写缓冲并形成流水机制,实现OGRE 3D在多核平台下的并行加速。测试结果表明,OGRE 3D渲染速率达到原来的2-3倍,有效提升了OGRE 3D的场景渲染性能和CPU剩用率。
其他文献
现有GPU加速的高性能Linpack 基准测试程序(HPL)一般采用基于实际运算能力的动态负载均衡算法来实现.然而该算法在单节点多GPU的平台上表现不佳,其原因是单节点多GPU平台上单个GPU计算量小,并且GPU与CPU 的总性能差距较大.为此,本文提出了经验指导的动态负载均衡算法以及多GPU 自适应负载均衡算法,并且在单节点多GPU 平台上进行验证,对比现有基于NVIDIA 费米GPU 的HPL
在蛋白质三级结构预测领域,基于蛋白质采样信息的结构预测方法是一种应用比较成功的方法,但是随着蛋白质数据库的增大,对计算能力的需求也越来越高,限制了这种方法的使用。随着FPGA芯片资源和计算能力的不断提高,基于FPGA芯片的硬件加速器已经成为加速蛋白质三级结构预测算法的理想平台。本文在分析蛋白质三级结构预测程序BackboneDBN的计算特征的基础上,设计并实现了一个基于FPGA平台的算法加速器,通
虽然云计算在科学计算和互联网应用上已经取得了很大的收益,但是由于规模庞大,不论是其拥者还是用户都将节省开销作为首要目标。然而,相关工作大多只考虑了拥有者的运营开销,而没有探讨云用户的费用。本文创新性地利用Amdahl定律提出了云计算用户的平均费用模型,通过该模型从本质上揭示了云计算中用户费用与租用的服务器数目、任务到达速率、任务的并行性以及服务器处理能力之间定量关系,对用户租用云计算系统服务器的方
分析了云计算环境中虚拟机映像存储系统所面临的问题和挑战,设计并实现了一种系统层的虚拟磁盘协作式持久缓存CoCache,能够充分利用各个节点缓存的服务能力,使其暂存的虚拟机映像数据能够为其他节点提供读取服务.CoCache 实现了物理节点间P2P 模式数据传输,达到了扩展存储系统数据服务能力的目的.CoCache 实现层次位于Linux 内核态,可以支持任何的VMM.实验结果显示该协作式持久缓存可以
以底层网络资源利用效率最优为目标,在底层网络不需要支持路径分裂的情况下,提出了一种新的基于快速收敛蚁群优化的虚拟网络映射算法。通过引入高斯过程模型,加快蚁群优化算法的收敛速度,满足实际应用的实时性要求;并且以映射开销作为适应度函数,最终解决虚拟网络映射问题。实验结果表明,与已有研究成果相比,在满足相同准确度的前提下,该算法显著地降低了算法的求解时间。
传统RBF神经网络在网络流量预测过程中存在收敛速度慢、极易出现局部最优等缺点,从而导致预测精度低。本文采用蚁群算法优化RBF神经网络参数来进行网络流量预测。利用蚁群优化算法来训练RBF神经网络的基函数宽度和中心,简化网络结构,加快收敛速度,防止局部最优的出现,改善RBF神经网络的泛化能力。实验结果表明,相对于GA-RBF以及PSO-RBF流量预测模型,本文模型预测准确度更高,能够很好地描述网络流的
本文提出了一种SSD内部多通道之间的写操作调度策略.该策略记录每个通道的数据写入量,每次数据刷新选择数据写入量最小的通道.DRAM被划分为两部分,分别作为读缓存和写缓存,写操作将数据写入写缓存后直接返回,写缓存数据量达到阈值上限后触发数据刷新操作,将部分数据写入SSD某个通道与此同时,采用读优先策略,在数据写入某个通道过程中如果收到指向该通道的读请求,则读请求抢占该通道使用权,实验结果表明,与传统
以有限元/有限差分等为代表的一类数值方法,总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.基于nVidia的GTX280系列GPU进行测试,测试数据显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法可以达到单双精度浮点效率均有1倍以上的提高,并突破了该系列GPU在spMV
OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速.由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速.本文通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,一方面体会不同优化方法的优劣,在优劣的相互转化中,寻求最优的解决方案.实验表明,优化后的算法在AMD GPU平台、NVIDI
本文提出了一种基于访存位置对指令进行分簇的算法,可以显著提高FFT 等计算密集型程序的性能.通过分析基本块中每一条load 或store 指令中访问内存的基址和偏移量,能够获得任意两条访存指令之间的关系.然后经过数据流分析,对基本块分别进行一次正向扫描和逆向扫描,将基本块中的每一条指令的操作数绑定到一个运算簇上.实验结果显示,本文中的算法相比已有的传统分簇算法可以获得13.57 倍的性能提升.