基于GPU稀疏矩阵运算优化系统设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:byang1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能应用的越来越广泛,以卷积或深度神经网络为代表的人工智能技术取得了巨大的应用。为了提高预测的精度,神经网络的规模急剧增加,巨大规模的神经网络引入了极大的计算量。网络稀疏化技术虽然能大幅度地减少计算量,但会造成神经元和连接权重矩阵的高稀疏性,并且连接权重矩阵也会出现不规则性。GPU+CPU异构计算架构能够实现大规模神经网络的高效计算,但稀疏连接权重矩阵的不规则结构会使得不同神经元的计算量出现明显差异,存在线程空转的情况,降低神经网络的性能,甚至抵消网络稀疏化技术带来的性能提升。本文设计和实现基于GPU稀疏矩阵运算优化系统,全连接运算本质是稀疏矩阵向量乘,通过优化稀疏矩阵向量乘和卷积运算,加速面向稀疏矩阵的神经网络运算。首先,将稀疏矩阵压缩行分组问题模型化为迭代多路整数分组问题,提出整数分组的稀疏矩阵向量乘,尽可能地平衡线程间计算量差异,缓解线程空转的情况。其次,提出合并存储的稀疏矩阵向量乘,实现合并访存和数据复用,提高访存效率,实现行与列之间尽可能的并行。再次,使用共享内存、对齐访问和稀疏存储格式设计自定义卷积函数优化传统卷积运算。最后,将传统卷积运算转化为矩阵乘法,使用稀疏存储格式设计自定义函数,通过优化稀疏矩阵乘法优化卷积运算,并测试稀疏度和存储格式对卷积运算的影响,为神经网络中稀疏矩阵存储格式的选择提供参考。针对上述研究,设计系统总体架构,将上述优化算法作为系统核心功能的算法,设计和实现稀疏矩阵运算优化系统各个功能模块,并对系统各个功能模块进行测试。使用公开数据集测试上述优化方法,实验证明,整数分组策略能减少全连接运算耗时,合并存储格式的稀疏矩阵向量乘运算速度能够平均提高8倍,自定义卷积函数和自定义函数实现高稀疏矩阵的卷积运算性能最佳。
其他文献
聚合物胶束是由两亲性共聚物在水溶液中自组装形成的纳米微粒,其疏水内核可以包载小分子难溶性的药物和大分子生物活性物质,改善难溶性药物的溶解性,可提高药物和活性物质的
正当性(legitimitat legitimite legitimoly)源于拉丁语(legitimus legitimitas)是对某一事物合理性的一种判断。宪法没有正当性就难于在现实中实现其价值。当宪法本身具有
谈及死亡,人们往往对其心生畏惧,但又无法回避。死亡作为人生旅程中的最后一站,为死亡举行的丧葬仪式是人类各种生命礼仪中最为繁杂隆重的仪式活动,人们通过一系列程序来追念
宪法正当性的正当化过程就是宪法正当性的实现过程,包括宪法产生的正当化和宪法制度内容的正当化两个方面。前者是制宪权的正当化过程,它保障了宪法起点的正当性;后者是国家权力
目的:观察柴胡皂苷a对大鼠胰腺星状细胞Ⅰ型胶原和MMP13表达的影响。方法:分离培养大鼠胰腺星状细胞。将星状细胞随机分为对照组、低浓度柴胡皂苷a组和高浓度柴胡皂苷a组,分
体外循环(cardiopulmonary bypass,CPB)是心内直视手术的一种重要手段,随着CPB技术、心肌保护措施和心脏外科手术技巧不断完善与提高,心内直视手术的并发症发生率和病死率逐步
王官屯油田构造破碎、断裂复杂,孔店组储层分布广泛,孔二2油组内及不同断块间的储层质量等方面差异明显,主控因素尚不明确。同时,在开发中后期,部分储层中已经形成了优势渗流
动词的时态语态在高考单项填空题中所占比例较大,纵观2015年高考英语试题,对时态语态的考查都以基础知识为主,当把时态和语境结合起来考查时,往往有一定的语境作为背景,要求
<正>微博的日趋流行让很多人看到了这块平台上的无限商机。与一般意义上的花店不同,很多店主都看上微博用户年轻化、时尚化这一特点,别出心裁地把花店开到了微博上。虽然没有
话语标记是语言学领域的一个热门课题。近年来,随着认知语言学和功能语言学的发展,话语标记研究取得了长足进步。在现代汉语中,指示代词“那个”的用法繁杂,与之相关的“那X