论文部分内容阅读
RNA(ribonucleic acid)二级结构预测是分子生物学中的关键问题。利用X射线晶体衍射和核磁共振(Nuclear Magnetic Resonance)等实验方法测定RNA分子的立体结构,可以得到比较精确、可靠的结果。但是,RNA分子降解速度快、难以结晶等特点使上述方法操作困难。此外,这些方法不仅费时费力而且代价高昂,在面对当前的海量生物序列时,显然是不能满足要求的。因此,像蛋白质结构研究一样,借助于数学方法和计算机等计算分子生物学手段去预测RNA的空间结构,是提高分析RNA空间结构效率的一个捷径。 本文对RNA二级结构预测问题进行了详细的阐述,并在充分汲取现有预测方法优点的基础上,将最小自由能模型与比较序列分析法相结合,创新性地提出了两种RNA二级结构预测算法,从而有效地提高了预测的精度。 具体地,本文的主要研究内容和创新点如下: 首先,介绍了RNA二级结构预测方法,包括解决该问题的数学模型、提供测试数据的结构数据库、主要算法的思想以及每种算法对应的软件。同时,本文还说明了这些软件的优缺点及各自适用范围。 其次,提出了改进的Hopfield神经网络算法来预测RNA二级结构。文中阐述了如何使用Hopfield神经网络构造环形图的最大独立集,并对其进行适当的修改以用于RNA二级结构预测。Takefuji等人采用随机的初始化方法,可能导致Hopfield神经网络的预测结果偏离了真实结构。本文通过使用同源序列来指导Hopfield神经网络的初始化和修改茎区池对算法进行了改进。实验证明预测结果的精度大大提高。 第三,提出了一种基于森林表示和遗传算法的RNA二级结构预测算法。当待测RNA分子的结构比较复杂,或同源结构的相似性较低时,Hopfield神经网络的结果容易陷于局部极优,故本文中进而提出一种基于森林表示和遗传算法的RNA二级结构预测算法。它使用Hopfield神经网络的预测结果来指导遗传算法的初始化,并根据同源序列的结构相似性原理,使用基于森林表示的RNA二级结构比对算法来从遗传算法所得的结构中选择与同源序列相似性最高的结果作为预测结果。实验证明,该算法在很大程度上解决了局部极优问题,预测结果的精度进一步提高。 第四,给出了一个RNA二级结构预测系统的实现,该系统使用了文中提出的基于比较序列分析的预测算法。 最后,本文对RNA二级预测的前景进行了展望,探讨了该领域进一步的研究方向。