论文部分内容阅读
最近几年来,全基因组序列测序的完成、大规模测定EST(表达序列标签)序列技术的完善和高性能计算机的使用,使得用模拟计算的方法大规模的定位和注释基因成为可能。一些研究者已经发展了各具特色的以统计预测为基础或者以实验数据比对为基础的方法来进行基因预测。然而,基因预测问题远未完全解决。尤其是那些在人类关键器官中表达的、可能与癌症等重要疾病密切相关的新基因,更是人们争相发现和研究的对象。
在本文中,我们以定位和注释在人类胸腺(thymus)中表达的新基因为研究目标,综合利用整体基因结构预测、EST序列数据以及其它基因特定功能片段预测方法,把统计预测方法与实验数据的比对验证紧密结合起来。我们使用的数据主要有:人类胸腺EST序列数据(10392个,来自NCBI的dbEST数据库),人类基因组序列数据(BUILD34.3),NT核酸序列数据(从NCBI的FTP服务器获得)等。对于那些在人类基因组中存在而NT库中不存在的EST序列(573个),把它们在人类基因组中定位并延长,分别用GENSCAN进行整体基因结构预测,如果其预测出的编码区与EST吻合,则我们认为此GENSCAN预测的基因可能是一个新基因,因为它至少有一个EST序列支持。然后进一步用其他预测基因特定功能片段的方法来对GENSCAN预测结果中不足的地方加以修正和完善,我们分别用FirstEF、polyadq、PairClusterRcg来预测基因的初始外显子(转录起始点)、PolyA信号(转录终止点)、启动子。最终得到了235个定位和注释好的、在人类胸腺中表达的可能新基因。