面向SIMD体系结构的稀疏图算法优化关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:yunlong0451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘已发展为学术界和业界研究的关键领域,以社交网络和文献引用等关系为代表的稀疏图结构数据挖掘是重要分支。随着大数据时代的不断深入,数据规模迅猛增长,对图数据挖掘算法的执行效率提出了更严格的要求。由于通用处理器性能的提升遭遇瓶颈,而具有更高SIMD并行效率的协处理器成为研究热点。但因为图数据规模大、稀疏性强及其顶点度分布呈幂律性等特点,使图应用在基于通用处理器+协处理器异构平台上的高效实现面临挑战。预先利用两级分块的预处理机制对数据进行划分,提升访问局部性和防止写冲突,是提升图应用在SIMD模式下并行执行效率的重要步骤。本研究针对面向SIMD体系结构的稀疏图算法优化进行了深入研究,对两级分块策略进行改进以提升其执行效率和资源利用率。具体工作包括:1、设计并实现了基于桶结构的图数据最优分组策略。该策略通过将现有数据冲突无关组的构造方式改为直接从每个桶结构中分别选取一个元素用以构造无关组,提升了SIMD执行图算法的效率,同时详细证明了桶分组策略的最优性。本研究针对选择非零元素最多的桶导致较大时间开销的问题,通过引入最大堆机制,将数据分组的时间复杂度降低为O(n*log(b))。2、当大规模稀疏图执行图计算时,针对由于数据在被访问时可能发生频繁的数据访问缺失导致计算效率较低的问题,基于决策树模型设计了面向SIMD结构的稀疏图数据自动协调分块尺寸推荐方法。该方法能结合不同图数据和所执行图应用的特点,自动推荐(近似)最优分块尺寸,使图算法基于该尺寸实现的性能是最优尺寸所实现性能的90%以上,同时极大提升了存储等资源利用率。3、结合上述提出的两种优化策略,本研究实现了一个基于通用处理器+MIC异构体系结构的稀疏图应用系统原型。通过将数据预处理和图算法执行等阶段模块化实现,简化了图算法在异构体系结构上的部署,还通过实验量化验证了上述两个策略的有效性。实验表明,基于自动协调的数据分块尺寸对数据进行预处理后,图算法的效率相较于当前最新成果至多可提升1.29倍。
其他文献
磁性纳米颗粒由于其独特的磁学性质,在药物递送、疾病诊断及磁热疗等领域受到了广泛关注。但因蛋白冠的调理素作用,使得纳米颗粒被网状内皮系统(RES)识别并清除,导致其肿瘤递送
白云岩成因问题一直以来都是沉积学领域经久不衰的话题,关于白云岩化流体性质以及成岩作用研究是近年来研究的热点。理清白云岩成因问题,对于认识以白云岩及其相关的碳酸盐岩为储层油气勘探工作尤为主要。前人在贵州德江地区进行研究时,认为白云岩整体性比较好,属于埋藏成岩环境作用下的产物。本文在前人研究的基础上,以贵州德江地区寒武系白云岩为研究对象,通过对地层特征、构造特征、沉积相特征、岩石学特征等研究,运用C、
在地球物理勘探中,地震速度是地下地层介质的重要地球物理参数之一,也是地震勘探的核心问题,只有求取准确的地震速度,才能准确的获得地震反射界面的地层深度及地层倾角等信息,以及根据地层的层速度研究地层岩性及空隙流体的性质。最常用的地层层速度求取方法是利用地震处理中的叠加(偏移)速度,由Dix公式来求取地层层速度,它是建立在速度场横向不变的均匀介质的假设基础上,但随着勘探的不断深入,地质情况越来越复杂,这
本论文研究线性反馈控制驱动下一类指数积分器系统的离散化模型的渐近稳定性问题.对非线性离散系统而言,Lyapunov第一方法又称为近似线性化方法,是进行稳定性分析的一个有效方法,但是此方法不适用于临界情形的非线性离散系统.对于临界情形,Lyapunov第二方法是分析非线性离散系统渐近稳定性的重要工具.对于不稳定性的分析,离散系统的Chetaev不稳定性定理是重要的研究工具.但是具体地构造出满足条件的
催化在化学工业中一直起着重要作用,大多数化工产品都是在催化剂的作用下通过多步反应生产的。在化学催化剂中,目前使用最多的是金属有机化合物类催化剂。但用到的多是价格昂贵的贵金属催化剂,从而限制了其在工业上的应用。所以,开发一种廉价、绿色、高效的催化剂一直是人们研究的热点。多金属氧酸盐具有可调的酸度和氧化还原性和对光敏感的特点,被广泛的应用各个领域。但是目前对结构简单,对称的Anderson型结构在催化
目的以额上颌角(frontomaxillary facial angle,FMF)和上颌-鼻根-下颌角(max illa nasion mandibular angle,MNM)为代表,探究此类超声新指标在正常胎儿发育过程中的变化规律及其
随着仿生技术在各个领域的不断应用,仿生界面的开发及其在许多领域的应用研究受到广泛的关注,如在化学领域中,通过模拟荷叶构建出一种超疏水的界面;在医学领域,制造出许多可
图像融合技术作为信息融合技术的一个分支,在图像处理领域中具有很高的研究与应用价值。多聚焦图像融合技术是应用某种图像融合算法,对来自同一场景不同聚焦区域的多幅图像进
变系数模型已经广泛应用于生物、医学、环境、金融等信息领域.在普遍情况下,我们所研究的问题都需要处理大量的数据,并且变系数模型中的系数函数可能是存在跳点的.一般跳点的出现意味着重大事情的发生,此类重大事件往往会影响到人类正常的经济生活.如果能够更加精确地检测出其中的跳点,也就能够更好地帮助人类识别机遇同时规避风险.样条方法不仅在寻找跳点上具有优势,在计算速度、稳定性、光滑性等方面也具有良好的性质.因
本论文聚焦中药活性成分经典色谱筛选方法效率较低的问题,围绕内皮素A受体(Endothelin A receptor,ETAR)色谱方法的建立及应用展开研究,明确了中药经典方剂四物汤中ETAR靶向