【摘 要】
:
内积检索问题在推荐系统、信息检索和数据挖掘等领域有着极为广泛的应用。内积检索问题是指给定一个查询向量q和一个矩阵P,在矩阵中P中找到k个向量,使得这k个向量与查询向量的内积值在查询向量与矩阵的乘积qT·P中排前k大。内积检索问题的求解可以分为两步(1)计算查询向量与矩阵的乘积;(2)在查询向量与矩阵的乘积中检索出排前k大的内积值和矩阵中对应的向量。基于CPU计算平台内积检索算法的性能瓶颈是计算向量
论文部分内容阅读
内积检索问题在推荐系统、信息检索和数据挖掘等领域有着极为广泛的应用。内积检索问题是指给定一个查询向量q和一个矩阵P,在矩阵中P中找到k个向量,使得这k个向量与查询向量的内积值在查询向量与矩阵的乘积q~T·P中排前k大。内积检索问题的求解可以分为两步(1)计算查询向量与矩阵的乘积;(2)在查询向量与矩阵的乘积中检索出排前k大的内积值和矩阵中对应的向量。基于CPU计算平台内积检索算法的性能瓶颈是计算向量与矩阵乘积的部分,该部分的计算时间占总计算时间的96%以上。与CPU相比,GPU有着更多的计算核心和更大的显存带宽特别适合用于求解运算密集型的计算任务。然而由于内积检索问题本身的复杂性,简单的将内积检索问题的求解迁移至GPU进行计算并不能取得较好的加速效果。本文针对如何高效的利用CPU-GPU系统加速精准内积检索问题展开研究。本文主要的研究内容和贡献如下:(1)对当前基于CPU的内积检索算法进行了细致的性能分析测定了算法每个阶段的时间开销,确定基于CPU内积检索算法的性能瓶颈为求解向量与矩阵的乘积。针对CPU无法高效计算矩阵乘法的问题,本文提出使用CPU-GPU系统加速内积检索中矩阵乘法的计算。为了充分利用CPU-GPU系统的硬件资源对CPU-GPU系统的软硬件体系结构和计算特性进行了系统的研究,并调研了当前CPU、GPU矩阵乘法的计算和优化方式,确定了本文所使用的矩阵乘法计算方式。(2)提出了基于GPU矩阵乘法的内积检索算法。针对GPU显存容量不足无法使用GPU计算矩阵乘法的问题,本文提出了矩阵分块计算方案,在不超过显存容量的前提下充分的利用GPU的计算资源高效的进行矩阵乘法。在合理矩阵分块计算的基础上提出基于GPU矩阵乘法的内积检索算法,解决了基于CPU内积检索算法的性能瓶颈。(3)提出了两个基于GPU的内积检索优化算法。在基于GPU矩阵乘法算法的基础上提出了基于GPU排序的内积检索算法,通过在GPU端对相乘得到的结果矩阵进行排序,提升了从乘积矩阵中检索前k大元素的效率并且减少显存与主存间传输数据的开销。并在基于GPU排序的内积检索算法的基础上提出了基于柯西-施瓦兹不等式的剪枝策略,保证了不损失计算精度的前提下大幅减少了所需的计算量。本文使用四个来自真实推荐系统的数据集对所提出的基于CPU-GPU系统的内积检索加速算法进行了性能测试。测试结果显示本文所提出的算法可以有效的解决基于CPU的内积检索算法的性能瓶颈。与目前效率最高的CPU内积检索算法相比本文所提出的基于CPU-GPU系统的内积检索算法获得了15.88至138.78倍的性能提升。
其他文献
随着我国脱贫攻坚任务的完成,扶贫工作的政策供给将由解决绝对贫困转向缓解相对贫困。在我国人口老龄化尤其是农村人口老龄化加速推进的背景下,农村老年贫困成为长期制约我国农村地区发展的一个重大现实问题。消除农村老年贫困,系统构建农村老年反贫困制度,不仅契合了贫困治理的底线思维,充分体现了以人民为中心的新发展理念,也是实现乡村振兴、构建新时代相对贫困治理的迫切需求。农村老年人相对贫困表现为物质收入的相对贫困、基本能力的相对贫困与基本权利的相对贫困。农村老年人相对贫困治理路径有赖于加速提供建立普惠式的社会保障体系、探
在野外和贫电地区,尤其是在通电率仅为44.6%撒哈拉以南的非洲国家,很多疾病与水污染有关,常常因为水中微生物细菌不能得到有效去除,发生大规模瘟疫。因此,饮用水杀菌及伤口消
很多学生在进入高中后难以适应数学课程的要求、学习出现困难,其中以学习兴趣下降、学习策略混乱、缺乏归纳反思能力等为代表。数学自我调节学习涉及数学学习动机、学习管理
本论文研究的对象是新疆特克斯县四苏木沙比纳尔长调,在研究过程中借助历史文献资料与前人研究成果,结合民族音乐学中的田野调查方法,探讨新疆特克斯县四苏木沙毕纳尔蒙古族
自近现代美术展览会兴起至今,中国艺术相关展览和美术馆已有近百年发展历史,而在漫长的历史洪流中,美术展览无疑是时势和情怀的记录者,民族文化与习俗的继承者,更在一定程度
滤波技术一直是数字处理领域的热门课题之一,其在航天航空、工业生产、军用科技等方面都有着极其广泛的应用。近些年随着网络技术的发展,基于网络化控制系统的滤波方法得到了极大重视。随着滤波理论与应用技术的不断提升与发展,现今基于网络化控制系统的滤波方法层出不穷,有效地解决了工业生产中大量实际问题,提升了现实生产力。本文借助非零和纳什博弈来描述多目标滤波问题,考虑丢包环境下的鲁棒最优滤波,分别给出有限时间和
随着密码学理论和分布式网络的发展,区块链技术进入了高速发展的时期。区块链的典型应用——数字货币,如雨后春笋般涌现开来。区块链技术就是建立在密码学的基础上,实现去中心化的分布式网络结构。在整个区块链中,核心就是哈希值的计算。计算出有效哈希之后,才可以建立新的区块。在区块链中,计算哈希值应用最为广泛的算法是SHA256算法。SHA256算法内部的执行过程就是整体的循环迭代,本次的循环迭代结果作为下次迭
移动Ad Hoc网络是由很多组多跳路由和动态移动的节点组成的通信网络,其主要特点是不需要有线网络、线缆和设备的支持,就可以快速部署。基于这些特点使得移动Ad Hoc网络被大家
以非晶铟镓锌氧化物(Amorphous Indium-Gallium-Zinc Oxide,a-IGZO)为有源层材料的薄膜晶体管(Thin-Film Transistor,TFT)近年来因其优良的特性而广受关注。抬高金属型金属氧
汪立三(1933—2013),我国近现代著名钢琴家、作曲家、教育家,在中国音乐素材钢琴化的创作中不断探索,以本土音乐素材或者民族调式,结合西方作曲技法及体裁形式,为钢琴音乐的