基于深度学习的带假结RNA二级结构预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yifanvip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA是基因表达的关键,负责细胞中的多种催化和调节机制。了解RNA功能的一个重要步骤是确定其结构,因此二级结构分析的意义在于它可以帮助确定RNA分子的功能以及细胞的许多调节、催化和构造过程。除了确定RNA分子的功能外,RNA的二级结构还提供有关分子结构域和结构内重要位点位置的信息。RNA结构预测有两个重要作用。首先,它有助于解释与RNA功能相关的实验;其次,它有助于建立新的实验来探索功能。计算方法已成为预测过程不可或缺的一部分,也是目前的主流方法。由于传统测量RNA二级结构技术的局限性,多年来,RNA二级结构预测的计算方法是研究人员了解RNA结构和大多数RNA的相应潜在功能的主要来源。一种计算方法通常基于计算RNA二级结构自由能的热力学模型。另一种方法基于比较序列分析,通过从同源RNA序列中借用信息来预测RNA二级结构。除此之外,随着RNA数据的大量识别,研究人员引入了机器学习特别是深度学习技术来进行二级结构的预测,混合研究方法避免了单一方法的局限性,极大提升计算效率,能更全面分析多类RNA的结构信息,得到更准确的结果。本文提出的TCMfold方法也属于混合研究方法,主要是结合了基于深度学习的模型和RNA二级结构的构成硬约束。本方法分为预测单元和校正单元两部分。预测单元使用了transformer模型的encoder部分和卷积神经网络来学习序列特征,之后再使用卷积神经网络和多层感知机进行特征解码。预测单元的网络模型输出一个二维的碱基配对分数矩阵,将该矩阵使用校正单元进行校正约束。校正过程实际上是把RNA二级结构硬约束化为数学上的无约束问题,计算可得到碱基序列的对称配对矩阵。本文使用数据集RNAStralign对模型进行训练和评估,并用另外的4种常用算法在同一测试集上进行测试并对比。根据最后的得分结果,在5s RNA、t RNA两类RNA上,TCMfold的结果较次高得分的算法高了9个百分点以上。在tm RNA和telomerase两类RNA上,TCMfold结果较次高得分的算法高了21个百分点以上。虽然对于这两类长序列RNA的预测效果不如短序列,但本模型仍具有很强的竞争力。目前,已知的各RNA家族中,各家族的序列的数量以及序列的长度分布相差较大,对长序列的预测分数大部分都达不到90%,但随着RNA数据的增多,可以预见的是,随着更多的各家族RNA分子被收集到数据集中,数据量大幅度增加后,本文的模型一定能从中都学到更丰富的序列特征,获得更好的预测效果。
其他文献
提出了一种由耗能螺栓和预应力筋连接的装配式钢管混凝土柱-RC梁节点,对8个十字形梁柱节点进行了低周往复加载试验,总结了装配式梁柱节点的破坏特征。给出了装配式梁柱节点屈服和极限状态的承载力计算方法,并建立了三折线骨架曲线模型。通过分析滞回曲线特征得到了刚度退化规律及滞回规则,进而确定了装配式钢管混凝土柱-RC梁节点恢复力模型,并与试验结果进行了对比。结果表明:在加载过程中耗能螺栓的钢棒能够通过受拉耗
<正>德国哲学家马丁·海德格尔作为20世纪存在主义哲学的创始人及开创者,其美学思想、哲学思想对中国学者产生了巨大的影响。1960年,中国学者首次翻译并出版了《存在主义哲学》一书,自改革开放始,海德格尔的哲学思想备受关注并持续至今。而随着当代科学技术的不断发展,关于存在与技术之间的反思成为学术研究的热点问题,这也是学者们基于时代语境对海德格尔哲学思想进行重兴审视的主要原因之一。在众多的学术著作中,《
期刊
青少年是中国足球的未来和希望,国家需要积极培养青少年,为中国足球的发展储备人才。对于青少年训练体系而言,足球基本功训练至关重要。基于此,为了进一步巩固青少年足球基本功,培养出优秀的青少年足球运动员,文章从青少年足球基本功训练的主要内容、青少年足球基本功训练阶段的划分以及青少年足球基本功训练三个方面进行详细分析,希望可以为有需要的人提供参考和建议。
<正>高三一轮复习是对基础知识全面、系统的复习,而二轮专题复习需要整合、重构知识体系,注重逻辑思维和学科素养的培养。马克思主义的广泛传播和新民主主义革命是高三二轮复习中的重点、难点、高频考点,史事庞杂且理论性极强。近几年高考对此考点的考查愈发凸显学科育人功能,坚定学生理想信念,厚植爱国主义情怀。为此,笔者依据新、旧《普通高中历史课程标准》(以下简称为《课程标准》),
期刊
阿尔茨海默病(Alzheimer’s disease,AD)是痴呆症最常见的一种类型,其特点是具有渐进性,属于神经退行性疾病。随着社会人口老龄化趋势的加重,AD在全球的医疗体系及公共卫生体系中所造成的健康不良影响和疾病负担愈发凸显。从地理区域角度综合分析,国内外AD及全因痴呆症的患病情况呈现不同的特点。基于目前国内的AD患病情况,作为亚洲的人口大国,国内应进一步提升公众对于AD和全因痴呆症的认知水
房屋建筑工程在投资决策、设计、施工、竣工审批等阶段必须进行成本管理。研究房屋建筑工程全过程造价控制方法,预设基于相关价值工程理论的全成本控制模式,将价值工程引入到房屋建筑工程各阶段的成本管理中,通过成本控制和全过程造价控制,提高工程施工质量,有效管理工程周期,科学控制工程造价。文中提出了全成本控制模式在工程四个阶段的应用,并通过工程案例,调整建筑全过程的成本配置,使其更加合理,提高企业资金利用率,
目的 探讨芦丁对慢性脑低灌注大鼠海马组织神经元损伤及Ras同源基因家族成员A(RhoA)/Rho相关卷曲螺旋蛋白激酶(ROCK)信号通路的影响。方法 将SD大鼠随机分为假手术组、模型组、芦丁低剂量组(20 mg/kg)、芦丁中剂量组(40 mg/kg)、芦丁高剂量组(80 mg/kg)、RhoA抑制剂组(Rhosin hydrochloride,40 mg/kg),每组9只。除假手术组外,其余各组
目的:检测金匮肾气丸合补中益气丸对老年小鼠运动能力、体重、不同部位体温、血糖的影响;检测金匮肾气丸合补中益气丸对老年小鼠内脏器官腺苷酸活化蛋白激酶(AMPKα)以及磷酸化腺苷酸活化蛋白激酶(P-AMPKα)蛋白表达的影响,初步探讨金匮肾气丸合补中益气丸对生物能量代谢关键分子的调节作用机制,为预防和治疗衰老所致的生理代谢功能下降及相关疾病提供理论和实验依据。方法:构建自然衰老小鼠模型(18~24月龄
将可再生能源平稳地整合到电网,实现能源结构绿色化的需求日益增加,分布式发电和微电网(Microgrid,MG)技术得到了广泛的发展。由于在电能变换方面具有灵活性、精确性和响应快等特点,电力电子变换器在微电网系统“源网荷”的渗透率不断提高,并深刻影响了系统的动态特性。与传统电网相比,微电网容量小,抗扰动能力较弱,系统多时间尺度动态在非线性结构下交互耦合,导致系统失稳机理更为复杂。为探究微电网系统多时