论文部分内容阅读
表现现代基因学特征的各种技术如雨后春笋般的出现,产生了大量与生物学相关的信息,这些信息很快地使生物学变成了一个以信息技术为主的科学。到目前为止,有超过1000个物种的全基因组序列的测序工作已经完成或者正在进行中a对于这些呈爆炸式增长的基因组数据,如何解释它们,也就是基因组注释是一个巨大的挑战。人工注释的方法是最值得信赖的方法,而且它在注释工作中扮演着重要的角色。但是由于人工方法耗时耗资,所以用计算机对基因组做初始注释是需要的。
尽管基因预测程序在最近十年有了很大的发展,但是即便是最好的预测程序都不能完全自动的识别基因。然而,幸运的是只有极少数的外显子被所有基因预测程序完全漏掉,因此,组合多个基因预测程序的预测结果应该可以提高基因预测的准确度。本文首先提出了利用Denlpste-Shafer证据理论组合基因预测,并给出了组合预测结果的数学理论框架。我们提出的方法的最大优势在于我们可以组合任意多个基因预测程序,只要这些基因预测程序的预测外显子有可靠概率分值,也就是这个分值能够反应预测结果为真实外显子的可能性大小。和单个的基因预测程序相比,我们的方法在核苷酸水平和外显子水平的预测准确度都有全面的提高,在外显子水平的提高尤为显著。除此之外,本文还提出再用Dempster-Shafef证据理论组合各种基因预测信息后使用动态规划来确定基因的开放阅读框,从而达到预测完整基因结构的目的。
在论文的最后一部分,我们还介绍了线性最小方差估计中的两个新结果。在线性无偏最小方差估计的第一个发展中我们知道线性变换不会提高线性估计的性能。我们找到了对观测数据作线性变换前后参数的最小方差估计等价的充要条件,而且还构造了能够极大的压缩观测数据的维数同时保证估计性能不改变的线性变换,也就是观测数据的最低维数无损压缩。在线性无偏最小方差估计的第二个发展中我们考虑了观测数据组合系数的约束问题,通过解在约束条件下组合系数的解,我们给出了在这种约束条件下未知参数的线性无偏最小方差估计,无约束的线性最小方差估计是它的一个特例。这两个线性最小方差估计的新结果不依赖于参数满足的具体模型,所以它们在实际问题中具有广泛的应用。