论文部分内容阅读
基因预测在基因组研究中受到越来越多的关注,实际上这个问题就是要用计算的方法在未注释的基因组上精确的指出在DNA序列上的转录,翻译和RNA的剪切,使人们清楚的知道在基因组上编码蛋白质的区域和非编码蛋白质的区域,特别是越来越多的物种的基因组序列的测序完成使这种用计算机预测外显子的方法变得更加重要。
在过去的十几年中,基因预测软件得到了极大的发展.总的来说,可以将它们分为两类,一类是通过同源性比对在未注释的基因组序列上识别新的基因,我们把这种方法称为同源性比对法,然而这种方法具有一定的局限性,研究表明新发现的基因中大约有50%在数据库中没有相似的同源基因(Claverie 1997);另一类是在信号识别的框架下描述基因组序列,通过对密码子的统计来识别DNA序列上的编码区和非编码区,这类方法在最近几年取得了极大成功,我们把它们称为信号识别法,比如:Genscan和HMMgene。
多数基因预测程序都会给出预测外显子的分值(简称预测分值),但是只有少数几个程序给出的分值具有某种实际意义,也就是真正给出被预测外显子的置信度评估,Sanja Rogic等人研究发现只有Genscan和HMMgene给出的外显子分值能够某种程度真实反映被预测外显子的可靠程度,其余的程序给出的外显子分值要么过高估计了被预测外显子的可靠程度,要么根本没有概率意义,这给使用者带来很大不便.此外,为了比较各种基因预测程序的预测精度,以便研究如何将他们融合起来获得更好的预测结果,我们也需要将多种预测分值化为可相互比较可靠程度的一种分值。
在这篇文章中,我们把将没有意义和某种程度实际意义的预测分值转化为概率分值,即分值在0~1之间,而且随着分值的增加准确率逐渐升高,使其能够真正反映被预测外显子的可靠程度,现有的转化方法只有采用可化为线性回归的非线性回归方法,效果较差,预测程序Fgenes对外显子预测的准确率比较高,大约75%,但是它给出的分值O-10是没有意义的,大于10的分值基本上是预测正确的但出现频率较低,所以本文以Fgenes为例,分别采用经验分布,分段线性函数,核密度估计,和局部多项式估计四种方法,将Fgenes预测得到的外显子分值转化为概率分值,计算机模拟结果表明这四种转化方法都取得了较好的效果,其中以局部多项式估计效果最好。