论文部分内容阅读
随着人类基因组计划的成功实施,充分利用这些基因组测序数据,得到对人类有用信息的需求迅速增加,随之而诞生的生物信息学充分利用信息技术、数学、生物学、计算机科学等多学科工具,有效分析了海量数据所包含的生物学意义。而机器学习方法则给生物信息学提供了可靠有力的算法支撑,使得生物信息学对生命科学的探索与研究做出了重大贡献。本文利用了生物信息学中的若干种机器学习方法,研究了RNA的分子自折叠二级结构预测及RNA分子间靶位点碱基对匹配模式与靶点预测问题。针对RNA二级结构预测算法中同源多序列保守结构预测法较单序列预测法复杂度高的问题,本文提出了保守二级结构中的保守碱基对来源于每个单序列的最优和次优自由能结构的假设。有效利用单序列自由能结构中各茎子结构的相关特征属性信息,通过支持向量机算法,保守碱基对被挑选出来。基于RNA二级结构预测标准数据集和Rfam数据库中十种RNA家族的二级结构预测实验显示,本算法的预测性能不低于主流预测算法水平。单序列自由能结构的引入既保证了较高的保守结构预测性能,又在一定程度上降低了算法复杂度。另外,本文研究的粗糙集方法挑选保守碱基对以及依靠茎子结构的公共程度属性排序挑选保守茎子结构法对SVM预测算法的最终形成提供了实验基础。在表示各个单序列最优及次优自由能结构的诸个茎子结构与保守二级结构的关系时,本文给出了一种有效的RNA二级结构表示方法,简约点阵图法,使得基于茎子结构粒度的预测算法原理描述更加形象与深刻。RNA分子间靶点预测亦主要依据RNA的一级序列信息。对于]miRNA靶位点碱基对互补配对模式特征的提取,本文先后使用了粗集工具与马尔可夫链式模型工具研究了配对模式的定性与定量特征。本文首先借助于两种量度变量,然后使用粗糙集工具,分析了miRNA的22个碱基中各个部分的匹配模式。接着,对miRNA靶点的序列匹配模式进行了进一步定量分析。通过建立马氏链模型,对训练数据进行学习,再根据极大似然法得到模型参数。已作完参数估计的模型为成熟的模型。基于这个成熟模型的得分,制定出一个合适的阈值,高于阈值的匹配模式都将被视为有效的模式,用于评估候选靶点作为真正靶点的可能性。随着近几年来微阵列基因芯片的广泛使用,基因表达谱数据为RNA分子间靶点预测提供了一种有效的高通量实验模式。本文通过建立描述miRNA、mRNA以及蛋白质表达量之间相互关系的贝叶斯网络模型,预测出miRNA靶点的同时指出miRNA按哪种方式发挥作用。