基于U-net卷积神经网络的RNA二级结构预测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yhmlivefor51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非编码RNA不能编码转录成蛋白质,但是在定位、复制、翻译、降解、调节和生物大分子的稳定性等方面却起着不可缺少的作用,这些作用通常和非编码RNA的结构密切相关,而目前实验方法测量RNA结构即困难,又昂贵,因此越来越多的研究者采用计算模拟的方法对RNA结构展开研究,RNA二级结构预测作为三级结构研究的基础,对基因组研究、药物设计等也有很大的作用。而今,随着机器学习、深度学习在人工智能、计算机视觉、图像处理、文本处理、语音识别等领域的广泛应用,许多研究者也开始尝试使用神经网络进行RNA二级结构预测研究。本文对已经在图像分割问题上取得了很好成绩的U-net卷积神经网络进行了改进,引进了focal loss函数作为神经网络的损失函数,有效解决了RNA二级结构预测研究中的正负样本不均衡问题。文中使用的训练集来自RNAstand数据库,包含1128条长度小于500nt的序列,测试集来自PDB数据库,去相似性后包含84条长度小于500nt的序列。保持神经网络结构和数据集不变,分别基于RNA序列的物理化学性质特征,提出了PC-Unet模型,取得的平均PPV为0.654,STY为0.667,MCC为0.647;基于直接耦合分析结果特征,提出了DCA-Unet模型,取得的平均PPV为0.811,STY为0.654,MCC为0.699;基于多序列比对特征,提出了MSAUnet模型,取得的平均PPV为0.803,STY为0.722,MCC为0.742。文中尝试将多序列比对和直接耦合分析结果两种特征进行融合,提出了DCA+MSA-Unet模型,平均PPV为0.779,STY为0.731,MCC为0.743,相较于单个特征模型结果没有提升,反而因噪声而有所下降。因此,又提出将三种模型两两按不同权重进行组合的新方法,其中DCA-Unet模型和MSA-Unet模型组合的最好结果是PPV为0.834,STY为0.655,MCC为0.709,PC-Unet模型和MSA-Unet模型组合的最好结果是PPV为0.838,STY为0.669,MCC为0.726,PC-Unet模型和DCA-Unet模型组合的效果最佳,其最好结果是PPV为0.853,STY为0.628,MCC为0.697,比目前已有的方法的预测精度都较好。
其他文献
本报讯 昨天,国内最大的第三方支付平台支付宝宣布,将和澳大利亚在线支付公司Pay-mate携手,双方将基于澳大利亚B2C平台“海外宝”为中国用户提供正宗的澳大利亚特色产品。据称,“
报纸
近两年,为了调整产业结构,中央提出了供给侧改革,着力推进各领域的结构优化,其中涉及困扰多年的住房产供和房价高企等深层次矛盾,提出了具体政策方针:分类指导,房价上涨过快
饱和岩土体的温度场-渗流场-应力场(THM)耦合问题是近年来岩土工程领域的研究热点与难点之一。以颗粒流体动力学为理论基础的清华岩土热力学模型(TTS)采用Onsager迁移系数矩
近年来低收入居民住房困难的问题已演变成了一个社会问题,并成为政府部门关注的焦点。在这种情况下政府部门加大了保障性住房建设的力度,而公共租赁房的营运管理渐渐成为保障
用创新拉动经济增长是熊彼特时期便提出的理论,至今仍活力不衰。然而,研发利益的溢出效应导致了企业创新活动的正外部性,不尽完善的产权保护体制引发了市场失灵,于是政府希望
分析了城市道路园林养护的主要内容,城市道路园林绿化养护特点,潍坊市道路园林绿化养护现状,分析优化潍坊市道路园林绿化养护技术的关键,规范城市道路绿化养护流程,提高现代
目的观察调肝理脾法对大鼠非酒精性脂肪性肝病(NAFLD)的改善作用及对大鼠肝组织微管相关蛋白轻链3B(LC3B)表达的影响,探讨调肝理脾法治疗NAFLD的作用机制。方法 SD雄性大鼠(
针对手表表壳与表带(金属)固定结构及表带带粒结构的研究,研究内容包括表壳与表带固定的结构特点、适用情况以及表带带粒结构特点、表带拉力扭力测试分析。结果表明头粒双边
随着手机、网络等多种新媒体的迅猛发展,电台作为一种传统媒体面临着巨大地市场冲击,同时自身的广告业务也呈现出许多新特点:虽然市场份额有所下降,但总体收入却实现了增长,
传染病的流行对人类的健康造成了巨大的伤害,历史上恶性传染病的爆发带走了数以亿计的生命。因而深入研究传染病的免疫策略有重要的意义。复杂网络理论与传染病动力学的结合使得研究传染病的传播机制更贴近于现实。为了更好地研究传染病及其免疫,本文在前人的基础上,针对有向无标度网络上的传染病模型,利用平均场理论、度分布和阈值理论,研究了疾病的免疫策略。主要的工作包括以下几个方面:考虑了包括常数与线性的两种节点传染