论文部分内容阅读
近年来,基因组计划的实施,使得DNA序列数据激增,对产生的海量序列进行有效地分析成为生物信息学的首要任务之一.其中,基因非编码区的解读已经成为科学家面临的挑战,对模体的研究是此领域一个重要的问题,因为识别模体是理解基因转录机制和表达模式的关键.对于此领域大量的DNA数据,将贝叶斯统计方法中的先验信息和后验分布的思想引入到序列分析当中,成为国内外学者讨论的热点问题.本论文采用贝叶斯统计方法对基因非编码区进行序列分析,并且对模体识别问题进行了研究.具体工作包括以下几个方面:1.针对非编码DNA背景序列建模问题,提出了一种基于贝叶斯假设检验的序列相关性的分析方法.选择Dirichlet分布作为多项分布的先验分布并且应用Jeffery先验超参数,对序列的马尔可夫性进行检验.该方法指出了马尔可夫模型模拟序列背景分布的优点并给出了确定马尔可夫模型阶数的方法.利用酿酒酵母中10类基因的上游序列集验证所得模型,可以得到序列集至少具有一阶以上的相关性,实验结果表明用高阶马尔可夫模型来建模背景序列比单碱基模型更合理.2.针对生物序列中已识别模体的统计显著性检验问题,提出了一种改进的贝叶斯假设检验方法.将模体的显著性检验转化为多项分布的拟合优度检验问题,应用贝叶斯定理得到贝叶斯因子进行模型选择.这种方法克服了传统多项分布检验中构造检验统计量及计算其在零假设下确切分布的困难.针对多项分布的Dirichlet先验分布中的超参数估计问题,提出了两种参数估计方法:一种基于极大似然准则,采用Newton-Raphson迭代算法估计Dirichlet分布的超参数,使得数据的预测分布达到最大;另一种是基于矩估计得到Dirichlet分布的超参数.采用皮尔逊积矩相关系数作为评价检验质量的一个标准,实验结果均优于传统的一些模体检验的方法.3.针对生物序列中已识别模体的相似性统计分析问题,采用位置频数矩阵描述序列模体,基于贝叶斯假设检验,提出了一种位置频数矩阵的识别和聚类方法.利用贝叶斯因子和原模型的后验概率,建立了一个基于列与列比较的相似性度量方法.其中,原模型是指进行比较的模体的两列相互独立并且服从同一个多项分布.通过对真实数据和模拟数据的实验分析,表明可以得到更加准确的分类结果.4.针对位置相关模体的识别问题,提出了一种新的基于贝叶斯得分函数的Gibbs抽样识别算法.现存的很多模体识别算法都假设模体内部各个位置之间相互独立,但是最近的生物实验已经证实部分模体的位置之间存在明显的相关性.为了探索这种相关性,算法首先推广模体的位置权重矩阵模型,构建碱基二联体位置频数矩阵描述模体内部成对碱基的相关性;其次,基于该模体模型,构建新的贝叶斯得分函数,并利用JASPAR数据库中的模体对该得分函数中的超参数进行极大似然估计;最后,通过贪婪选择模体的初始位点并进行位点抽样,搜索具有最大得分函数的模体.通过真实数据和模拟数据评价新的贝叶斯得分函数,实验结果表明算法能够有效的对每条序列包含一个模体实例的未知模体进行识别,结果优于没有考虑位置相关性的一些模体识别算法.