分子共进化分析中的关键算法设计与优化技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ghchao0605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共进化是在自然界中和生物体内普遍发生的一种生物学现象,在分子水平上的共进化称为分子共进化,指的是为了维持分子内或者分子间的结构或功能关联在序列中的不同位点间同步发生的进化现象。分子共进化分析是研究生物大分子三维结构以及不同分子间连接关系的重要手段,通过分子共进化分析算法获得分子间的共进化区域从而进一步预测分子间的结构和功能结合域是一种常用研究途径。然而传统的分子共进化分析探测工具所基于的数学模型存在一定局限性、缺乏对于不同生物大分子序列的普适性并且无法支持大规模数据的处理。针对以上问题,本课题设计实现了新的分子共进化分析探测算法以解决传统方法中准确性与普适性的问题,并设计实现了基于CPU-MIC异构协同的多级并行加速方案以满足大规模分子共进化分析探测的需求。主要包括以下三个方面的工作:1.传统的蛋白质-蛋白质分子共进化分析探测算法存在着探测结果容易受到单列噪声影响、忽视共同保守位点之间的分子共进化等缺陷与不足。本文基于上述问题重新设计并实现了新的蛋白质-蛋白质分子共进化分析探测算法,为解决单列噪声的问题算法提出了位点单元的概念并在搜索过程中采用了滑动窗口策略,算法抛弃传统的“共同变化模型”采用了新的数学模型与计算过程并同时考虑了共同变化与共同保守两方面的信息。通过生成具有典型进化特征的模拟蛋白质序列,对算法的分子共进化探测效果进行测试与分析。经过实验测试,验证了新算法具备同时探测共同保守信号与共同变化信号的能力,并在探测能力方面相较于传统算法具有一定优势。2.通过分子共进化研究lncRNA与蛋白质之间的相互作用对深入揭示组蛋白修饰中的调控机制具有重要意义,然而传统的分子共进化分析探测算法普遍关注于某一种特定的生物序列,缺乏对于核苷酸序列和氨基酸序列的普适性,难以适用于不同种类的输入序列数据。本文将主体算法中计算序列间平均替换率的过程抽象为距离计算函数的概念,针对不同类型的序列集成了与之对应的距离计算函数,在实现RNA和蛋白质之间的分子共进化分析探测能力的同时,使我们的算法能够应用于DNA、RNA和蛋白质三种生物序列中。并且基于新算法设计和开发了分子共进化分析探测工具COPCOP,具有良好的易用性与实用价值,可供研究者们进行各种生物序列之间的分子相互作用的研究。3.分子共进化分析探测是一项计算高度密集型的工作,在序列长度显著增加、比对序列数目明显增多的情况下,海量分子共进化分析探测所需要的计算量巨大。然而现在还未有支持多节点异构并行的分子共进化分析探测工具来处理大规模数据集的问题。本文在天河二号超级计算机系统上对新设计的分子共进化分析探测工具COPCOP进行了多级并行优化从而满足大规模分子共进化分析探测的需求。本文基于OpenMP和MPI并行编程架构以及CPU-MIC异构协同模型设计实现了面向天河二号的大规模多级并行分子共进化分析探测工具mCOPCOP。在多节点测试中mCOPCOP获得了最高197.14倍的并行加速比并获得了接近线性的可扩展性,为大规模分子共进化分析探测的工作提供了一个有效的解决方案。
其他文献
类风湿性关节炎(RA)是一种慢性的全身性的自身免疫性疾病,女性较男性更易患病,在老年人群体中也更易发现。主要影响患者关节滑膜,临床表现为对称的关节受累,包括关节痛、肿胀、
在大部分的哺乳动物中基本上都有自发的活动和社会行为等特征。由于小鼠的行为和活动能够定量的反映出小鼠对于外界环境和药物的反应。所以自发性活动和社会行为的统计信息,对于生物医学等领域有着重要的意义。早期的动物行为学的研究主要是依赖人工的标记,这样会导致实验的大部分时间在进行重复的标记工作,并且人工标记具有一定的主观性和偏差,对于参数定量化也存在着困难。近几年随着计算机视觉和图形学技术的发展,在小鼠监控
目的:脂肪干细胞由于具有多能性,可诱导分化能力,成为再生医学替代性治疗的一个重要干细胞来源。本研究分析了从大网膜、胃底和皮下来源的脂肪组织中提取脂肪干细胞的方法及
目的:通过回顾性分析进展期胃癌患者预后生存相关因素,探讨“重建中气”法中药复方对患者生存及生活功能的影响。资料与方法:搜集辽宁中医药大学附属医院肿瘤科2017年1月至20
焦炉是一种具有独特结构的工业窑炉,用于对煤炭进行炭化处理以产生焦炭。焦炉炼焦过程中炭化室压力的稳定程度,可直接影响到煤炭的结焦质量、炉体的使用寿命以及周边的环境。炭化室及管道压力是较为复杂的控制对象,扰动因素多且不同结焦时期的相邻炭化室压力耦合严重,而传统的集气管压力控制方法难以保证生产中每一个炭化室的压力在稳定范围内,已不能满足目前的工艺要求。为了更好的解决上述问题,文章首先从炭化室及上升管道这
天山哈密翼龙发现于新疆哈密下白垩统吐谷鲁群地层中,在那里发现了大量的雌雄翼龙个体和数百个三维立体保存的翼龙蛋和胚胎。但是前人对天山哈密翼龙的沉积环境、埋藏特征及头骨复原的研究相对较少,因此对以上内容进行研究将十分有意义。本论文运用古生物学、岩石学、沉积学、埋藏学和统计学等研究方法,如薄片鉴定、粒度分析、埋藏特征统计,对天山哈密翼龙头骨和下颌关联的新材料牙齿齿槽排列特征以及沉积环境与埋藏特征进行了初
目的:心肾综合征(Cardiorenal syndromes,CRS)在临床上分为5型,本文主要研究Ⅱ型心肾综合征。本研究通过测定血清中性粒细胞明胶酶相关脂质运载蛋白(Neutrophil gelatinase-asso
Markov链是随机过程的一个特例,在企业的生产决策和市场占有率等方面应用广泛,国内外已有不少研究成果.关于连续状态非齐次Markov链,张鹏艳和杨卫国探究了连续状态非齐次Markov链多元函数的强大数定律;关于绝对平均强遍历性,杨卫国探究了离散状态非齐次Markov链的情形.结合二者,本文主要研究连续状态非齐次Markov链绝对平均强遍历性.全文共分为五个部分:第一部分介绍Markov链的研究背
班公湖-怒江缝合带组成结构及班怒洋盆地属性研究是近年来青藏高原研究的热点地区和关键问题。藏北南羌塘盆地的木嘎岗日组是班怒洋演化过程中盆地成熟期的产物,对其研究无疑具有十分重要的意义。论文依托1:5万区域地质调查项目,在野外剖面实测和室内测试分析的基础上,研究西藏双湖县多玛地区木嘎岗日组时代属性、沉积相、沉积环境及遗迹化石,取得了一些新的成果和认识。生物地层研究:通过两条地层剖面实测及路线地质调查,
在工业和市政等管道系统中,塑料弯管的需求日益增加。弯管接头作为管路的一种关键部件,管道弯曲处受力最复杂,弯管接头既承受高水平的应力,又是管道系统中最易磨损的部位,且为不均匀磨损,一旦破裂将危及生产和生活安全。大弯径比塑料弯管接头在实际应用中有可降低管道流体阻力、增加流量系数、减小压力损失、提升管道安全等优点,因而具有较广阔的应用前景。本文提出一套新型大弯径比塑料弯管接头注塑模具结构,开展了基于数值