基于贝叶斯统计的基因非编码区与模体识别问题研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:changkou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基因组计划的实施,使得DNA序列数据激增,对产生的海量序列进行有效地分析成为生物信息学的首要任务之一.其中,基因非编码区的解读已经成为科学家面临的挑战,对模体的研究是此领域一个重要的问题,因为识别模体是理解基因转录机制和表达模式的关键.对于此领域大量的DNA数据,将贝叶斯统计方法中的先验信息和后验分布的思想引入到序列分析当中,成为国内外学者讨论的热点问题.本论文采用贝叶斯统计方法对基因非编码区进行序列分析,并且对模体识别问题进行了研究.具体工作包括以下几个方面:1.针对非编码DNA背景序列建模问题,提出了一种基于贝叶斯假设检验的序列相关性的分析方法.选择Dirichlet分布作为多项分布的先验分布并且应用Jeffery先验超参数,对序列的马尔可夫性进行检验.该方法指出了马尔可夫模型模拟序列背景分布的优点并给出了确定马尔可夫模型阶数的方法.利用酿酒酵母中10类基因的上游序列集验证所得模型,可以得到序列集至少具有一阶以上的相关性,实验结果表明用高阶马尔可夫模型来建模背景序列比单碱基模型更合理.2.针对生物序列中已识别模体的统计显著性检验问题,提出了一种改进的贝叶斯假设检验方法.将模体的显著性检验转化为多项分布的拟合优度检验问题,应用贝叶斯定理得到贝叶斯因子进行模型选择.这种方法克服了传统多项分布检验中构造检验统计量及计算其在零假设下确切分布的困难.针对多项分布的Dirichlet先验分布中的超参数估计问题,提出了两种参数估计方法:一种基于极大似然准则,采用Newton-Raphson迭代算法估计Dirichlet分布的超参数,使得数据的预测分布达到最大;另一种是基于矩估计得到Dirichlet分布的超参数.采用皮尔逊积矩相关系数作为评价检验质量的一个标准,实验结果均优于传统的一些模体检验的方法.3.针对生物序列中已识别模体的相似性统计分析问题,采用位置频数矩阵描述序列模体,基于贝叶斯假设检验,提出了一种位置频数矩阵的识别和聚类方法.利用贝叶斯因子和原模型的后验概率,建立了一个基于列与列比较的相似性度量方法.其中,原模型是指进行比较的模体的两列相互独立并且服从同一个多项分布.通过对真实数据和模拟数据的实验分析,表明可以得到更加准确的分类结果.4.针对位置相关模体的识别问题,提出了一种新的基于贝叶斯得分函数的Gibbs抽样识别算法.现存的很多模体识别算法都假设模体内部各个位置之间相互独立,但是最近的生物实验已经证实部分模体的位置之间存在明显的相关性.为了探索这种相关性,算法首先推广模体的位置权重矩阵模型,构建碱基二联体位置频数矩阵描述模体内部成对碱基的相关性;其次,基于该模体模型,构建新的贝叶斯得分函数,并利用JASPAR数据库中的模体对该得分函数中的超参数进行极大似然估计;最后,通过贪婪选择模体的初始位点并进行位点抽样,搜索具有最大得分函数的模体.通过真实数据和模拟数据评价新的贝叶斯得分函数,实验结果表明算法能够有效的对每条序列包含一个模体实例的未知模体进行识别,结果优于没有考虑位置相关性的一些模体识别算法.
其他文献
斯皮尔克曾写过<属下能说话吗?>一文,将&#39;属下&#39;这一研究对象定位为社会边缘阶层,并提出知识暴力的概念.而本文想研究的是:同样作为&#39;属下&#39;的中国女性、女性文
<正>凌霄,又名陵时花,闹羊花、大葳花,原产我国,是落叶、木质藤本植物。其叶呈羽状,花桔红色,漏斗形。凌霄抓墙、攀生,常作为花架、假山的配植材料。若用其枝干扦插,上盆培育
期刊
在缺失数据机制是可忽略的、先验分布是逆矩阵Γ分布的假设下,利用矩阵的cholesky分解和变量替换方法,本文导出了有单调缺失数据结构的正态分布参数的后验分布形式.进一步用
当前,中国经济的核心逻辑正在发生深刻的变化。改革开放以来中国经济取得的巨大成功可以按照现代增长理论来解释。根据美国经济学家罗伯特·索洛提出的“索洛模型”,一个国家的
报纸
<正>近来,关于核心素养的讨论成为热点。"由传统知识结构为核心转向以素养发展为核心的过程,其中蕴含的是人类自身发展的心路历程。它的发展暗合某种规律。规律,等待我们去揭
文章提出了利用企业资源和环境完成工科学士毕业论文的教改设想,分析了这样做的利弊因素、可能导致的问题以及相关的解决方法。
本文描述了近年来世界期货市场 ,尤其是期货交易所本身发生的重要变化。新的通讯技术的采用 ,使各主要期货交易所电子交易的数量迅速增长。交易技术的创新引发了期货交易所之
目的探讨非插管下吸入七氟烷并辅助局部麻醉用于小儿腹股沟斜疝手术的可行性和安全性。方法将80例ASA I级择期行斜疝手术的患儿按随机数字表法分为2组:K组40例采用氯氨酮辅助