论文部分内容阅读
家蚕是遗传学研究最为详尽的昆虫之一,然其第27、28连锁群至今尚未建立。本研究在家蚕基因组精细图数据的基础上,利用从序列到表型的研究思路,对家蚕第27、28号染色体进行深入研究。通过整合连锁图谱、填补Gaps、进行基因预测和功能注释、筛查和鉴定第27、28染色体上的基因,推测可能出现的表型,为建立家蚕第27、28连锁群提供新的启迪。
1.家蚕第27、28号染色体遗传图谱的整合
本研究利用覆盖度达到了9倍的家蚕基因组数据集,包括43622条scaffold序列,预测基因14632个。整理利用能与序列信息对应的1577个SNP标记和3000个SSR标记,筛选出位于27染色体的SNP32个,第28号染色体24个,分别将9个和5个基因组片段定位在27、28染色体上。结果显示,这两条染色体上至少分别拥有10.4Mb和10.3Mb的基因组序列。
2.家蚕第27、28号染色体Gaps的填补和验证
家蚕精细图中第27、28号染色体仍存在部分缝隙(Gaps),27号染色体由9个基因组片段构成,其中含有8个Gaps;28号染色体由5个基因组片段构成,其中含有4个Gaps:我们在BAC库中利用perl程序提取BAC末端序列,利用本地BLASTN程序与家蚕9X基因组数据进行比对,以比对分值最高者作为连接Gaps的BAC:同时还发现了有可能是位于27、28号染色体上的“新的”基因组片段,如27号染色体上总长达200kb左右的nscaf2803和nscaf2804;28号染色体上的nscaf3101。
利用生物学软件primer5.0,随机在第27、28号染色体上各选择2个填补的Gaps,在两端的基因组片段末端10kb内非重复序列区设计引物,以填补的BAC为扩增模板,PCR实验验证了生物信息分析的结果。因此,通过对这两条染色体Gaps的填补,为完善第27、28号染色体的DNA序列提供有效的方法和数据,也为家蚕基因组完成图的绘制提供了新内容。
3.家蚕第27、28号染色体基因功能注释
利用生物信息学方法获得了家蚕27、28号染色体预测基因分别为241和288个,蛋白质编码序列(CDS)长度都是2000 bp以下的占绝对优势,分别为各自基因总数的80.19%和87.85%。两条染色体最多的基因长度都是400-800bp,分别是各自总数的22.82%和26.39%,具有高度的一致性。
第27号染色体平均每个基因具有7.7个外显子,远高于家蚕基因平均5.4个,第28号染色体平均5.3个,接近家蚕基因平均数目。特别是27号染色体上BGIBMGA004547基因,具有102个外显子,是目前己知家蚕基因中外显子数目最多的基因。
27号染色体上的基因内含子长度分布范围为49-9992bp,内含子平均长度1121bp(n=1619),其中500-999bp的内含子最多,占到了总数的37.18%。28号染色体的基因内含子长度分布范围为49-9919bp,内含子平均长度1354bp(n=1224),其中500-999bp的内含子最多,占到了总数的34.72%。说明两个基因组内含子都以中小片段为主。2条染色体的内含子平均长度都接近整个家蚕基因组内含子平均长度1289 bp。
GC含量对于特定的研究对象是固定的。第27、28号染色体CDS的GC含量分别是49.72%和46.54%,而27、28号整条染色体序列GC含量分别为38.09%和38.44%,高于家蚕平均GC含量33.8%。CDS高于其本身染色体序列的GC含量,说明基因蛋白质编码区的GC含量要高于非编码区。
蛋白质结构域分析发现27号染色体存在Sugar_tr、MFS_1、zf-C2H2、Ion_trans、BESS、Trypsin和HSP20等76种蛋白质结构域,约占家蚕蛋白质结构域的0.5%:28号染色体具有UDPGT、DUF、Serpin、Trypsin、Homeobox和ig等92种蛋白质结构域,约占家蚕蛋白质结构域的0.6%。
家蚕27、28号染色体上分别有195和227个基因具有芯片探针,这些探针的组织芯片数据分别进行聚类分类。27号染色体的这些基因大致可以分为7个小群,不同群基因在组织表达上存在明显差异。28号染色体组织上调比较明显的有4小群。
4.家蚕糖转运蛋白基因家族的鉴定和分析
在基因预测和注释过程中,发现27号染色体具有一个突出的特点:存在很多的糖转运蛋白(Sugar Transporter,ST)基因。为搞清楚该特点是否对27号染色体的结构研究和突变基因的寻找有帮助,对该家族进行了鉴定分析。将家蚕基因注释中有ST或MFS的基因提取出来共计719个,然后采用BLAST检索、跨膜结构域预测,鉴定了家蚕98个ST基因,约占家蚕全部基因总数的0.7%。其中有56个基因具有ESTs证据,占到了预测基因总数的57%。ST基因有84个能定位到染色体上,27号染色体最多,达到18个。聚类分析表明,ST基因有2类功能比较明确:一类主要是转运葡萄糖和海藻糖等糖类;另一类在转运糖类的同时兼转运有机阳离子。
对27号染色体上的ST基因进行结构分析,发现27号染色体是家蚕中最大的ST串联重复基因簇,在nscaf2797的680kb区域内分布了7个ST基因,在nscaf2800的140kb区域内分布了8个ST基因。ST的跨膜结构2-12个不等。基因芯片表达谱分析表明,27号染色体的ST基因中8个ST基因在幼虫丝腺中表达上调,家蚕吸收营养物质的中肠却只有5个ST基因表达上调。可能与这一时期丝腺迅速增长需要大量的能量物质有关。依据丝腺和中肠发育特点,推测在家蚕中肠的ST基因表达上调除休眠以外的生长期可能是长期的,而在丝腺组织中大量基因表达上调可能是特定时期的特殊现象。
5.家蚕第27、28号染色体预测基因的可能表型
利用家蚕第27、28号染色体上的预测基因与果蝇突变基因序列进行同源比对,获得了家蚕预测的突变基因。依据果蝇突变基因的表型,整理作为家蚕突变基因可能的形态特征。经过同源检索,第27号染色体上有26个预测的突变基因,其中有16个同源果蝇突变基因主要在生殖、发育、变态和形态等方面有明显的表现型;第28号染色体上15个预测突变基因都在果蝇中发现了突变表型。为将来在家蚕资源库利用各种诱变方式收集第27、28号染色体突变的表型,最终发现家蚕27、28连锁群的形态标记提供重要参考。
综合本研究,我们对家蚕的27、28号染色体进行了系统研究,对两条染色体存在可能突变表型的研究,为家蚕连锁图谱的研究提供了新的思路。