基于Xeon Phi的超长序列比对算法设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:wpf82011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因是指控制生物性状的遗传信息,通常由DNA序列承载,可以视作基本遗传单位。基因的产物可以是蛋白质和RNA,从而控制生物个体的性状差异表现。而两个基因的相似度有多高,演化上是否可能同源。归结到计算上,就是如何找到两个序列的最优或近似最优的比对。随着人类基因组计划的测序工作的完成,生物信息科学的研究重点放在了探明基因序列的功用上。而在高通量测序技术快速进展的背景之下,生物数据呈现指数型增长。因此产生了对大量生物信息数据进行高效准确分析的需求。基因序列决定了生物的性状,查找出基因差异性对于人类克服疾病具有深远的意义。本文在Xeon Phi众核架构上,设计并实现了一个全新的超长序列比对算法SLPal。该算法的计算核心是基于位并行的BitPAI算法。在粗粒度上,为了实现多线程并行,我们将超大规模的矩阵进行了划分。在垂直和水平方向上分别进行划分,将矩阵分成了网格。然后通过Intel TBB并行编程库构建了有向无环图模型来实现该网格中矩阵块之间的并行。在细粒度上,我们用Xeon Phi上的指令集编写了 Intrinsic指令。SLPal中的一些操作没有对应的向量化实现,我们采用手动编写函数来实现了相关的功能。实验表明,相较于已有的超长序列比对算法,SLPal的计算效率更高。在单块KNC和KNL平台上,分别取得了172和482GCUPS的计算性能。相较于Swaphi-ls并行超长序列比对算法,SLPal在KNC和KNL上分别取得了5.8倍和16倍的加速比。
其他文献
我国是世界上中低温地热资源非常丰富的国家之一,然而,地热资源的利用比例却很低,尤其是地热发电。地热和石油都富集于沉积盆地之中,油田通常也是地热田,油田区的地质资料十
喷涂作为当前热门的制造技术,广泛应用在各个行业中。喷涂所需的高温环境容易引起事故,需要对喷涂环境进行监测。另一方面,由于目前喷涂流程复杂,影响喷涂产品合格率的因素较多,需要对生产数据进行特征分析。本文针对汽车零件喷涂生产中的环境监测,利用云平台进行数据存储并从存储的数据中找出影响产品合格率的因素,并预测了在这些因素作用下产品的不合格率。首先申请阿里云ECS云平台,在阿里云服务器上搭建Node.js
研究目的:非糜烂性反流病(Non-erosive Reflux Disease,NERD)指有烧心反酸等临床表现、但在普通白光内镜下与正常无异、看不到黏膜破损的一种食管疾病,因此给镜下诊断及治疗
非线性Schr?dinger方程在物理、工程等众多领域应用广泛,特别是非线性分数阶Schr?dinger方程的研究得到越来越多学者的关注。本文首先研究二维非线性整数阶Schr?dinger方程,在空间离散上应用二阶精度的有限差分方法,对离散后得到的差分矩阵进行正交分解,可以应用离散傅里叶变换实现矩阵的乘积。在时间离散上,应用二阶紧致隐式积分因子方法(7)cIIF(8),并结合快速傅里叶变换(7)F
目的:血管新生(angiogenesis)在肿瘤的发生发展中起着重要的作用。在肿瘤形成早期,肿瘤直径超过2-3mm时,就必须生成血管来维持氧气和营养物质的输送。肿瘤的血管表现为孔隙多
杜松(Juniperus rigida Sieb.et Zucc.),柏科刺柏属,为东亚特有种,是传统的蒙药、藏药之一。杜松精油与酚类物质具有良好的抑菌与抗细胞毒性的生物活性,尤其对肺炎双球菌与肺
鸭坦布苏病毒(Duck Tembusu virus,DTMUV)属黄病毒属,病毒编码三种结构蛋白(核衣壳蛋白C、膜蛋白前体PrM、囊膜蛋白E)和七种非结构蛋白(NS1、NS2A、NS2B、NS3、NS4A、NS4B、NS5)。
电力电子技术的主要功能是把电能转换成负载做需要的形式,作为电力电子技术的核心之一,DC-DC的应用显然是很普遍的。如何较好的控制DC-DC变换器是当前的热门话题。与此同时,
目的目前,流行病学研究表明,职业噪声暴露会导致高血压、冠心病、中风等心血管疾病的发病率的增加,但是大部分都是横断面的调查,而且结果仍存在争议,并且分子生物学机制仍不
抗生素的长期滥用,使细菌的耐药性不断增强,加剧了抗生素抗性基因的传播和扩散。研究表明,重金属和抗生素存在协同选择作用。在重金属污染严重的区域,即使没有抗生素的存在,也发现了抗生素抗性基因。硼作为一种在环境中广泛分布的半金属元素,其与抗生素是否存在协同选择作用还未有相关报道。本实验测定了 8株噬冷菌(Algoriphagus)的生长曲线,选取其中7株菌进行了抗生素和硼的最小抑菌浓度测定。并对耐药噬冷