基于CAPI技术的DeepFM算法FPGA异构加速研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:energyjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的快速发展,算法对芯片的算力要求越来越高,摩尔定律的放缓甚至失效让芯片仅仅依靠先进的制造工艺来提升性能已经变得越来越难,伴随人工智能产生的新型计算形式对数据中心服务器的功耗和性能提出了更大的挑战。CPU+FPGA作为一种特殊的异构计算方式,在计算性能、实时性和能效比方面相对于传统计算架构拥有巨大优势。但是传统的FPGA作为外接硬件设备,主要通过PCIe总线接口与中央处理器通信,通常需要冗长的设备连接建立过程,从而产生数据传输效率降低问题。另一方面,随着深度学习的发展,人们开始尝试使用深度学习方法解决广告推荐问题,Deep FM算法模型是一种结合了深度神经网络的推荐算法,该算法能根据用户的特性针对化地为用户推荐感兴趣的内容,相对于传统推荐算法具备更优的准确性。随着可获取信息数据的增加,Deep FM算法需要处理的数据量激增,在大规模数据计算时传统中央处理器出现计算速度慢,延时高的问题,难以满足实际应用场景中的实时性要求。针对以上问题,本文提出了基于CAPI技术的Deep FM算法模型FPGA异构加速方法。基于CAPI技术缓存一致性原理提出了一种软硬件协同数据通信框架,该框架用于CPU与FPGA之间的数据传输,大幅降低了CPU与FPGA的通信延时,同时开发者可以根据需要替换算法核加速逻辑,具备可拓展性。基于上述软硬件协同数据通信框架,设计了一种加速Deep FM算法推理阶段的硬件并行架构,通过FPGA脉动阵列结构并行加速Deep FM内部核心计算,同时采用基于索引矩阵的因子分解机FPGA计算方法来优化计算形式,增大计算速率。最后试验表明,基于CAPI技术的软硬件协同数据通信框架在CPU与FPGA的数据传输上具备更高的传输带宽以及更低的通信时延。基于CPU+FPGA异构实现的Deep FM算法的推理速度相比中央处理器具有显著硬件加速性能及鲁棒性。
其他文献
深圳城中村经历了为期十年(2009-2019)的“大拆大建”,进入了“拆留并举”新时代,本文在此主要背景下开展研究。深圳城中村体量庞大,按照过去十年大拆大建的拆除城中村的速度,拆光深圳所有城中村需要大约100年,这一实际情况奠定了本文主张适度拆除城中村的大基调,进而提出三个主要的研究问题:拆多留少还是拆少留多?如何更好地拆?如何更好地留?此外,本文将城中村城市空间划分为四种:村属私宅、村属厂房、村
帕金森病是世界上最常见的神经退行性疾病之一,该病患者通常会出现多种非运动症状(抑郁、嗜睡、嗅觉和认知障碍)和运动症状。这些症状是由中脑黑质多巴胺能神经元变性死亡引起的,尽管这种病理改变不可逆,且帕金森病到目前为止尚无法根治,但针对帕金森病的纵向分析如早期诊断和临床评分预测(抑郁、嗜睡、嗅觉和认知障碍)可以使患者尽早地确认病情并得到及时的治疗,这对改善患者生活质量和延缓疾病的恶化十分重要。目前帕金森
本选题的研究背景立足于深圳这一超大城市,其独特的城市背景、滨海的自然地理条件、区别于内陆的文化传统,使得这一区域的传统村落形成其典型的特色。由于这些传统村落往往位于城市和乡村的中间过渡区域,随着深圳城市的快速发展和向外辐射扩张,这些传统村落不得不接受快速城市化的冲击和影响,经历着原有生活、生产方式与现代文明的激烈碰撞,与城市的关系并非主动融入而是被动裹挟,故其保护和更新面临着特殊的考验。此外,从政
帕金森病作为中老年人中第二大神经退行性疾病,其病症通常可以分为运动症状和非运动症状,这些症状的出现主要是由大脑中的黑质多巴胺能神经元的死亡造成。随着人口老龄化的加剧,帕金森病患者的数量随年逐增,鉴于目前的帕金森病主要诊断是以临床症状作为主要依据,其确诊和治疗的过程是复杂的,并且在现阶段造成病理改变的原因仍未明确,在临床上需要耗费大量人力物力对疾病进行确诊,这一现状无疑对社会或者个人都造成了一定的负
脑卒中是危害中老年人群生命健康的主要疾病之一,并且现在缺乏对脑卒中疾病有效的治疗手段。临床认为较好的手段是在脑卒中患者病发前,通过前期预防,对行为进行干预,从而减少脑卒中疾病的发作。近年来,深度学习已经得到广泛的应用,其中包括图片、语言、语音等领域,同样在现有的脑卒中预测的研究中,基于深度学习的机器学习方法的性能效果突出。然而,深度学习建立一个良好的模型前提是需要获取大量已标记好的数据。但是,实际
在如今的医疗体系中,医学图像分割技术具备很高的临床应用价值。无论是外科切除手术还是对病灶的定量分析,都需要精确地掌握器官和肿瘤的大小、三维结构和具体位置等重要信息,医学图像分割是提供这些信息的重要手段。近年来,泌尿系统肿瘤的发病率呈逐年上升态势,而膀胱癌和肾癌又是两种高发的泌尿系统肿瘤,因此,研究对膀胱肿瘤图像和肾肿瘤图像的自动分割算法是疾病治疗的实际需求。由于医学图像普遍存在复杂的噪声和伪影,不
并行磁共振成像p MRI(parallel Magnetic Resonance Image)是一种常用的临床检查技术,不同于计算机断层扫描CT(Computed Tomography)、X射线等成像技术,没有电离辐射,对人体没有伤害。p MRI系统利用多个线圈同时接收MRI信号,得到关于目标切片的多线圈k空间数据,将每个线圈的k空间数据经过傅里叶逆变换得到二维空间域图像信息,通过多幅线圈图像合并
近年来,随着物联网技术的迅猛发展,无线终端设备的电池寿命短以及计算能力低等问题日益凸显。最近无线能量传输技术和移动边缘计算技术的发展为这些问题提供了很好的解决方案,基于这些技术的无源边缘计算系统不仅可以实现为无线设备进行远距离持续供能,还能通过边缘服务器分担终端设备的计算任务,提高系统的计算能力。然而,无源边缘计算系统也面临诸多技术挑战,如射频信号路径损耗的“双近邻效应”带来的用户采集能量低、通信
土曲霉是降胆固醇药物洛伐他汀的主要产生菌,它合成洛伐他汀的效率受菌种性能、发酵条件以及发酵过程中菌体的生理生化特征等诸多因素的影响。对土曲霉发酵过程中的菌丝形态与洛伐他汀合成效率的关系、以及组蛋白修饰酶表达效率与洛伐他汀合成效率的关系进行研究,将有助于提高土曲霉合成洛伐他汀的效率,在洛伐他汀的发酵生产中具有重要的应用前景。为研究土曲霉菌丝形态对洛伐他汀合成的影响,本工作使用无菌水稀释种子液降低接种
精准的心脏图像分割在很多疾病的诊断和后续的治疗中有至关重要的作用,比如心脏右心室(RV)的结构和功能与大多数心脏疾病有关,包括肺动脉高压、心肌病、先天性心脏病等疾病。开发右心室的自动分割算法将大大减少放射科医生的日常工作量。鉴于RV结构的形状多变,难以区分内外模与腔的边界等问题,传统半自动分割算法在分割精度上依然有很大的提升空间,而深度学习在医学图像上的成功应用,为RV分割开阔了新的全自动分割算法