论文部分内容阅读
核糖核酸(RNA)是一种重要的具有多功能的生物大分子。除了众所周知的可以编码蛋白质的功能外,真核细胞中大约有97%的RNA是不编码蛋白质的,称为非编码RNA。这些非编码RNA在调控基因表达、催化生化反应、细胞间信息传递等方面起到了非常重要的作用。RNA的这些功能由它们的三维结构决定,所以我们需要知道它们的三维结构信息才能弄清它们的功能。现阶段我们可以通过X射线衍射和核磁共振实验来获得它们的结构,但这些实验不仅耗时耗力成本高,而且技术上也有挑战。另外随着测序技术的发展,已知序列的RNA分子数量已经远远超过PDB数据库中已知结构的分子数量。这些现实要求理论计算模拟上可以预测RNA的三级结构。在本论文中,我们针对loop三级结构预测和RNA三级结构打分函数提出了新的模型和方法,这些工作可以帮助解决结构预测中出现的难题。作为结构预测的一部分,RNA loop的三级结构预测值得特别关注。首先,这是因为RNA发挥功能的部分经常位于loop区域,而且他人的研究发现对于序列长度大于30个核苷酸的RNA链,大约46%的核昔酸是未碱基配对的,即处于loop区域。其次,loop的高度柔性和能量函数的不准确性,使其预测精度远远低于螺旋区域。最后,有一些RNA结构预测方法只考虑了螺旋间的相对位置关系,忽略了 loop结构,我们的方法可以帮助loop区域进行三维重构。因此我们在工作中提出了一套新的方法来进行RNA loop区域的三级结构预测,命名为RNApps,它包括了一个概率性的RNA粗粒化模型、序贯蒙特卡洛生长算法、模拟退火策略以及一个全原子的统计势。我们概率性的模型采样方法可以在一个连续的三维空间内进行采样,避免了一些片段组装方法和离散态模型的缺点,粗粒化的性质又可以大大提高采样的效率。我们的方法适用于各种loop结构,包括发夹环、内环、多分枝环,以及其他类型的缺失片段。作为结构预测的重要组成部分,能量函数(打分函数的一种)的优劣直接决定了结构预测结果的好坏。我的第二个工作是基于人工神经网络方法通过对训练集中的RNA分子进行结构信息的学习来构建打分函数。人工神经网络方法作为机器学习的重要分支,最近几年发展迅速,在各领域取得了突破性的进展。我们希望可以用神经网络这个具有潜力的工具来解决结构预测中遇到的难题。根据神经网络输入特征的不同,我们构建了两套打分函数,一套是粗粒化模型打分函数,主要基于碱基间距离的概率分布,另一套是全原子模型打分函数,主要基于原子间距离的概率分布。两套打分函数在测试集上都取得了很好的结果,全原子打分函数表现要优于粗粒化打分函数,但粗粒化打分函数可以减少计算量,节省计算时间。本论文的研究结果有以下突破和创新之处:ⅰ,)我们提出了一套新方法来预测RNA loop的三级结构,这可以帮助我们完成整个RNA分子的结构预测。ⅱ)这套新方法基于条件概率采样策略,可以在一个连续的结构空间内采样,避免了一些片段组装方法带有的离散性缺点。ⅲ)序贯蒙特卡洛生长算法框架可以让我们很容易地将一些实验上或者人为的约束信息放到算法中,提高采样效率和准确性。ⅳ)我们通过人工神经网络的方法,构建了新的用于RNA三级结构预测的打分函数。ⅴ)新的打分函数可以充分使用天然态以及非天然态RNA的结构信息,而传统的统计势只使用了天然态RNA的信息。ⅵ)神经网络方法可以根据训练集自动地学习到网络参数,避免了传统的统计势中需要考虑的参考态问题。本论文的内容安排如下:·在第一章中我们介绍了本论文研究的背景和意义,以及一些基本概念知识。·在第二章中我们介绍了用于RNA loop三级结构预测的新方法。·在第三章中我们介绍了基于人工神经网络用于RNA三级结构预测的新的打分函数。·在第四章中我们对全文进行了总结与展望。