【摘 要】
:
序列比对算法是许多生物信息学分析方法的基础。在实际运用时,常常需要对两条以上的序列进行多序列比对。严格的多序列比对算法由于计算复杂度过高,难以应对多于7条长度在300以上的序列的比对需求。因此,新的启发式算法不断涌现。主流的启发式算法需要构建指导树以确定序列加入的次序,因为在这些算法中,序列加入次序会影响最终比对的结果。构建指导树的必要步骤限制了这些算法在大规模多序列比对的应用。另一方面,各类基因
论文部分内容阅读
序列比对算法是许多生物信息学分析方法的基础。在实际运用时,常常需要对两条以上的序列进行多序列比对。严格的多序列比对算法由于计算复杂度过高,难以应对多于7条长度在300以上的序列的比对需求。因此,新的启发式算法不断涌现。主流的启发式算法需要构建指导树以确定序列加入的次序,因为在这些算法中,序列加入次序会影响最终比对的结果。构建指导树的必要步骤限制了这些算法在大规模多序列比对的应用。另一方面,各类基因组计划启动,产生了海量的基因组数据,然而现有的启发式算法也难以应对大规模的全基因组间的多序列比对。因此需要一种新的多序列比对算法,针对基因组间多序列比对的数据特点进行开发设计。在这里,我们提出了一种新的启发式算法,片段拓扑序依赖的大规模多序列比对算法(Fragment topological order guided multiple sequence alignment,FTO_MSA)。该算法流程主要分为两步,分别是比对架构的确定和未对齐部分的比对。在确定比对架构时,我们利用了相似序列的数据特性,以滑动窗口截取的等长序列片段作为比对的基本单位,快速对齐序列间相同的节点,并通过序列片段在原序列中的前后位置关系判断对齐的准确性。这部分的计算通过构建以等长序列片段为节点,以前后位置关系为边的有向无环图的方式完成。我们将该图称为拓扑序依赖片段图。由于图的结构可以根据新加入序列进行相应改变,因此图最终结构与序列加入次序无关,无需构建指导树。而后以此为基础对剩余小部分未对齐处进行序列比对。构图过程中相同节点的合并发挥了信息去冗余的作用,减少了重复计算。从多方面大大减少了所需计算。为了测试该算法,我们选取了GISAID中的63964条长约30000bp的新冠基因组作为测试集并划分为不同子测试集,并以MAFFT算法的两个方法为对照,测试了本算法的效率和精确度。在序列长度较长且序列数量较大的情况下,我们的方法具有很大的优势。测试中,当序列长度在30000bp左右,序列数量等于30000时,该算法所需的CPU时间仅为MAFFT中FFT-NS-2方法的1/7。可以在约28小时的时间内完成63964条新冠病毒全基因组的序列比对。在不同序列数量的多序列比对精确度测试中,结果显示,我们的算法在精确度方面与MAFFT相差无几。
其他文献
磷酸化作为最重要的翻译后修饰之一,在信号转导、细胞分裂、细胞骨架动力学和新陈代谢中起着至关重要的作用。蛋白质磷酸化主要发生在丝氨酸、苏氨酸和酪氨酸三种氨基酸上,其相对比例为1800:200:1。异常磷酸化与疾病有关,常被用作生物标志物。基于质谱的蛋白质组学为磷酸化蛋白质分析提供了非常重要的工具。除了难以识别生理样品中的肽段外,磷酸肽的电离效率和浓度低,以及非磷酸肽引起的显著干扰,使得基于质谱的直接
肽由于其丰富的结构多样性、固有的生物相容性、易于合成和修饰等特点,在纳米材料设计领域引起了人们极大的兴趣。其中,环肽作为一种扁平环状分子因其刚性构型以及化学和酶学稳定性而备受关注。通常,由环肽自组装形成的纳米结构的形态仅限于通过分子间氢键以环状堆叠方式形成纳米管,很少有文献报道环肽的其他组装策略。共价自组装是近些年发展起来的一种制备二维高分子纳米结构的新策略,它是构筑基元通过共价键相互作用力形成具
纤维素酶在木质纤维素的转化过程中扮演了重要的作用。多数纤维素酶是典型的模块化酶,通常由一个或两个催化结构域(Catalytic domain,CD)和一个或几个碳水化合物结合模块(Carbohydrate binding module,CBM)组成,CBM通过高度灵活的连接肽(linker)连接到催化结构域上。CBM能将吸附在纤维素表面的酶分子的催化中心靶向不溶性底物,增加底物表面的有效酶浓度,然
目的:探讨正念训练联合脑电生物反馈治疗对青少年抑郁症伴网络成瘾患者的影响。方法:研究对象为广州白云心理医院2021年1月-2022年1月收治的96例青少年抑郁症伴网络成瘾患者,采用掷硬币法将其分为对照组(n=48)和观察组(n=48)。两组均给予常规药物治疗,对照组在此基础上给予脑电生物反馈治疗,观察组在对照组基础上给予正念训练,比较两组疗效、中文网络成瘾量表的修订版(CIAS-R)评分、心理状态
酶在生物体内扮演着非常重要的角色,生物体通过酶来加速体内的化学反应。酶作为一类生物催化剂,相比于其他催化剂,酶在选择性、催化效率以及环境友好上有着绝对的优势。酶催化非专一性的发现,已然成为绿色化学领域的一个研究热点,在工业生产中有着重大意义。脂肪酶是目前商品化程度很高的一类酶制剂,能催化多种类型的有机反应。本论文在课题组以往的研究基础上,对脂肪酶催化新型的有机反应进行了挖掘和探索,主要研究内容和结
伤口愈合是生长因子、细胞因子以及相关组织细胞等多方面参与的生理修复过程。异常的伤口愈合如过度愈合形成瘢痕或慢性伤口形成溃疡,均会对机体造成较大伤害。细胞迁移是伤口愈合中的限速事件,在伤口愈合过程中发挥重要作用。当组织受损时,细胞可释放热休克蛋白90α(Hsp90α)促进细胞迁移,通过跨膜蛋白低密度脂蛋白受体相关蛋白1(LRP-1)传导细胞运动信号,加速伤口修复。胃溃疡是常见的消化系统疾病,它的修复
近年来,随着抗生素的不合理使用,细菌耐药性广泛存在,给临床治疗细菌感染性疾病带来了巨大挑战。铜绿假单胞菌(Pseudomonas aeruginosa,PA)是重要的院内获得性感染致病菌,对多种抗生素产生了耐药性,也出现了很多PA的基因缺陷型菌株。PA的致病性主要与其毒力表达有关,抑制PA毒力是治疗细菌感染的关键。群体感应(Quorum Sensing,QS)是一种细菌细胞间群体行为,在调节PA毒
纤维增强复合材料由于质量轻,强度高且具有优异的综合力学性能及抗冲击性能等优点,在航空航天、轨道交通、防护装甲等领域得到了广泛应用。本文选取被用于防护装甲设计且对应变率敏感的超高分子量聚乙烯(UHMWPE)纤维和芳纶(Kevlar)纤维作为研究对象。利用结构仿生学的思想,通过研究自然界中螳螂虾螯棒和贝壳类生物等力学性能优异的生物组织结构,并将这些结构运用到纤维增强复合材料的成型设计上。同时开展了结构
研究发现,最初被认为是有毒气体的硫化氢(H2S)实际上与一氧化氮(NO)和一氧化碳(CO)一起参与了许多生理过程,是一种重要的细胞内信号递送分子。H2S在血管张力调节和血压调节方面显示出与NO相似的生物学效应,但是H2S的作用机制仍未明确。H2S和NO都可通过精确的酶促机制在生物系统中进行内源性合成,通常发挥相似且部分相互依赖的生物学效应,却也导致不同的化学和生物学反应之间相互减弱或增强的特性。例
玉米是我国第一大粮食作物,保障玉米生产是我国粮食安全国家战略的一项重要任务。目前,病害与虫害仍然在威胁着玉米的产量与质量,冠层中下部的病害和虫害是阻碍玉米健康成长的因素之一,化学防治可以破除玉米病害与虫害威胁。但是,目前的玉米化学植保作业时,存在着药液于玉米冠层内分布不均匀,冠层中下部药液沉积率低的弊端。因此,改进现有玉米植保作业装备,提升药液在玉米冠层中下部的沉积率,有利于药液均匀分布于作物冠层