论文部分内容阅读
以Homo.sapiensRefSeq作为原始数据库来构建EID(Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大小、总数、非翻译区(UTR)内含子、内含子相位、内含子剪切位点模式).结果表明,人类24条染色体(22条常染色体和2条性染色体,共计2 870 827355 b