论文部分内容阅读
作物基因组学是当今最重要的研究领域。小麦是世界上最重要的粮食作物之一,但普通小麦(T.aestivum)为异源六倍体(AABBDD),基因组庞大(1.6×1010bp),重复序列多(约90%),目前还难以通过全基因组测序进行小麦功能基因组研究。全长cDNA克隆不仅包含完整的阅读框,还拥有5′和3′端的非编码区,是进行高通量的功能基因组学研究的一条有效途径。 在引进、消化吸收的基础上,我们对Cap-trapper法做了进一步的改进,形成了一套简单易行的技术体系,建立了我们自己的全长cDNA文库构建技术平台。利用改进的Cap-trapper法,分别构建了不同倍性、不同组织、不同处理的小麦全长cDNA文库10个,涉及普通小麦(AABBDD)及其三个二倍体祖先种(AA、SS和DD)和四倍体波斯小麦(AABB)共计小麦的5个种,涉及幼苗、根、愈伤组织、花药、胚乳,并设有白粉菌诱导诱导与对照等。所建文库插入片段平均为1.5kb左右,原始文库的库容量在6.0×105~5.0×106 pfu之间,经后期测序并与GenBank公布的小麦全长mRNA序列比对分析表明克隆的全长比例为93%左右,扩增文库滴度在1010pfu/ml数量级,适合于大规模测序需要,是开展小麦功能基因学研究的宝贵资源。 试验从10个全长cDNA文库随机挑取大约11万个克隆进行3’端测序,获得106,671条3’端EST,去除冗余后选择代表性克隆进行了克隆5’端测序,获得31,732条5’EST,共获得138,403条EST,得到高质量序列(Q20)数据7.46×107bp。在去除ployA和短于100bp的序列后获得5’EST和3’EST分别为30,586条和95,736条。经cap3软件聚类分析表明试验获得了32,899条不重复克隆。 GC含量统计表明小麦族基因cDNA序列中GC含量为54.0%,这与水稻基因组GC含量基本一致(53.4%),而与拟南芥有明显差别(40.7%);5’和3’EST比较发现5’端GC含量为57.80%,明显高于3’的GC含量(52.8%)。推测小麦基因的这种高GC含量特别是5’端高GC含量是小麦全长基因克隆和测序困难的原因之一。 将获得的32,899条不重复序列使用blast软件将比对参数E值设为le-20对879,695条小麦公共EST数据进行相似性搜索,结果表明8,800条为新的小麦EST(26,75%);使用参数1e-5对水稻32,127条全长cDNA序列比对结果表明15,992条(48.6%)序列在水稻全长cDNA中没有对应序列。同时,利用1e-20的参数对水稻1,191,102条水稻EST数据blast结果表明18,672条没有相应序列(56.75%);用该数据集对华大基因组研究所测序的水稻基因组序列blastn搜索结果表明14,382条(43.72%)在水稻基因组序列中没有对应序列(E-value 1e-5)。 密码子使用的偏爱性是生物在长期进化过程中逐渐形成的,影响偏爱性的因素有多种,如G+C含量,基因表达水平,基因的长度,tRNA的丰度等等。我们随机挑取了750条全长序列使用codonW软件对小麦密码子使用偏爱性进行了分析,统计结果表明小麦基因密码子第三位GC含量为54%左右,与表达基因的整体GC含量一致;同时发现小麦优先使用的密码子27个,所有优先使用的密码子均以G或者C结尾,无一例外,这与水稻的情况非常一致;而拟南芥为低GC含量物种,仅为44%,所有优先使用的密码子均以A或者T结尾。说明植物进化过程中单双子叶植物分开后首先GC含量趋异非常明显,进而密码子优先使用特性也完全不同。 使用基于Linux平台的本地化分析平台系统对获得32,899条序列进行了分子功能、生物过程和细胞组分三个层次的Gene Ontology注释,获得了小麦基因的多层次注释信息。