基因预测中外显子分值的转化

来源 :四川大学 | 被引量 : 0次 | 上传用户:wecofe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因预测在基因组研究中受到越来越多的关注,实际上这个问题就是要用计算的方法在未注释的基因组上精确的指出在DNA序列上的转录,翻译和RNA的剪切,使人们清楚的知道在基因组上编码蛋白质的区域和非编码蛋白质的区域,特别是越来越多的物种的基因组序列的测序完成使这种用计算机预测外显子的方法变得更加重要。 在过去的十几年中,基因预测软件得到了极大的发展.总的来说,可以将它们分为两类,一类是通过同源性比对在未注释的基因组序列上识别新的基因,我们把这种方法称为同源性比对法,然而这种方法具有一定的局限性,研究表明新发现的基因中大约有50%在数据库中没有相似的同源基因(Claverie 1997);另一类是在信号识别的框架下描述基因组序列,通过对密码子的统计来识别DNA序列上的编码区和非编码区,这类方法在最近几年取得了极大成功,我们把它们称为信号识别法,比如:Genscan和HMMgene。 多数基因预测程序都会给出预测外显子的分值(简称预测分值),但是只有少数几个程序给出的分值具有某种实际意义,也就是真正给出被预测外显子的置信度评估,Sanja Rogic等人研究发现只有Genscan和HMMgene给出的外显子分值能够某种程度真实反映被预测外显子的可靠程度,其余的程序给出的外显子分值要么过高估计了被预测外显子的可靠程度,要么根本没有概率意义,这给使用者带来很大不便.此外,为了比较各种基因预测程序的预测精度,以便研究如何将他们融合起来获得更好的预测结果,我们也需要将多种预测分值化为可相互比较可靠程度的一种分值。 在这篇文章中,我们把将没有意义和某种程度实际意义的预测分值转化为概率分值,即分值在0~1之间,而且随着分值的增加准确率逐渐升高,使其能够真正反映被预测外显子的可靠程度,现有的转化方法只有采用可化为线性回归的非线性回归方法,效果较差,预测程序Fgenes对外显子预测的准确率比较高,大约75%,但是它给出的分值O-10是没有意义的,大于10的分值基本上是预测正确的但出现频率较低,所以本文以Fgenes为例,分别采用经验分布,分段线性函数,核密度估计,和局部多项式估计四种方法,将Fgenes预测得到的外显子分值转化为概率分值,计算机模拟结果表明这四种转化方法都取得了较好的效果,其中以局部多项式估计效果最好。
其他文献
本文介绍了环簇的两种构造方法,扇锥法和齐次坐标法,并证明了二者的等价性。由于构造附特殊性,环簇的很多几何性质由扇锥的组合性质决定。从格点多面体可以构造扇进而得到的环簇
期刊
在计算机视觉和图像处理中,边缘检测涉及到图像的灰度级发生重要变化的定位和导致这些变化的物理现象。这些特征信息的获取对三维重建、动画设计、图像增强和储存、图像配准
自变量分段连续型延迟微分方程在信息技术,生命科学,电子物理等方面有着重要应用,因此,研究自变量分段连续型延迟微分方程有着十分重要的应用价值.  近几年,在物理学,电子信息学
本文立足于语文课程改革及其学科属性,论述了小学语文经典诵读课程开发的必要性,提出了具体的组织实施建议.
期刊
班主任工作是管理人的工作,管理人的工作也是最具有挑战性的工作.班主任要管理好班级不容易,要打造出特色班级更不容易.因此,想要让自己的班级管理卓有成效,作为班主任,在班
光纤网络是当今及未来信息网络的核心技术之一,主要适用于可视电话、远程教育、远程医疗、家庭办公等新型业务。光纤网络可用一个弧对称(即图中有一条从u到v的弧当且仅当存在
期刊
期刊