棉属ESTs数据分析平台的建立及海岛棉EST-SSR标记的挖掘与特征分析

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:hongshouwang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
棉花作为纤维的重要来源,是世界范围内最重要的纤维经济作物。随着测序技术和生物信息学的快速发展,GenBank等重要生物数据库中登陆的棉属序列也快速增长,截至2009年2月,NCBI、EMBL和DDBJ3大数据库收录的棉花EST有375,374条,利用生物信息学手段对棉花ESTs数据进行大规模分析显得日益重要.   本文以生物信息学理论为基础,利用Phred/Phrap/Consed、phd2fasta、CrossMatch、RepeatMasker、cap3、BLAST、BLAST2GO、SSR locator等软件包以及自主基于perl、python平台开发的程序,在Linux操作系统中构建了棉属ESTs数据生物信息分析平台,完成了从测序峰图判读、序列转换、载体序列的去除、重复序列分析、镶嵌克隆去除、序列聚类和组装、ESTs序列功能注释与功能分类以及基于EST的SSR、SNP分子标记的发掘。同时,通过使用Perl语言编写的脚本程序使分析过程自动化,加速对大规模测序数据的分析和利用。此外,为了加快分析速度和避免网络局限性,运用自行编写的程序对棉属蛋白、核酸、ESTs等网络数据资源进行了本地化集成。   基于EST-SSR挖掘系统,利用海7124-3~6和6~24DPA的胚珠和纤维为材料构建的两个cDNA文库随机测序ESTs序列21,073条、运用脚本程序从Genbank dbEST数据库抽取海岛棉ESTs1,023条,预处理后共计22.087条海岛棉(Gossypiumbarbadense)ESTs序列进行EST-SSRs标记挖掘及特征分析。海岛棉ESTs序列剔除冗余序列,得到非冗余序列9,697条。在非冗余序列中发现含不同重复基元SSRs的EST序列有595条,共617个EST-SSRs,EST-SSRs序列的频率是6,13%,平均相隔10.8kb出现一个SSR。在2-6bp的重复基元中,三核苷酸重复基元的SSRs出现频率最高(27.2%),其次是五核苷酸(26.O%)、六核苷酸(26,3%).统计所有的重复基元类型,所占比例最大的是AAG/CTT(8.09%),其次是AG/CT(7.15%).利用Prime3及virtual PCR程序,并去除CMD收录的已发布的SSR引物冗余后,开发了297对新的SSR引物。对本实验四倍体作图亲本陆地棉TM-1和海岛棉海7124进行多态性检测后,其中60对有多态性,多态性频率为20.2%。这些EST-SSRs可有效用于不同棉种间的分布特征比较及染色体定位等方面研究。   使用本地BLASTx程序将包含SSR的ESTs序列与nr(non-redundant)蛋白数据库本地数据库进行同源性比较,595条ESTs序列中,457条(76.81%)ESTs序列发现有同源性蛋白,而138条(23,19%)没有任何命中( nohits)。同时,同源蛋白中,142条(23.87%)为推测性或假设性蛋白。   使用BLAST2GO软件包对包含SSR的ESTs序列进行基因本体学GO分析(GeneOntology)及KEGG代谢途径功能分类。GO分成生物过程(Biological Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)3个类型。细胞组分中所占比例最大的是细胞cell/cell part(30.42%),其次是细胞器organelle(22.01%);生物过程中所占比例最大的是细胞过程cellular process(33.25%),其次是代谢过程metabolic process(30.38%);分子功能中所占比例最大的两个是催化活性catalyticactivity(49.44%)和结合binding(37.45%)。此外,KEGG代谢途径分类中,主要分布在代谢途径类Metabolism(31.36%),而代谢途径分类中,大多数集中在碳水化合物代谢Carbohydrate Metabolism的42.02%。这些为相关基因的克隆和下一步的表达和功能分析提供了序列依据。   总之,基于本地化的生物信息学综合分析体系的建立及其应用,对于棉花功能基因组学研究具有重要意义。此外,海岛棉EST-SSR分子标记的挖掘为构建遗传图谱、基因定位、发掘新基因、比较基因组和遗传多样性奠定坚实的基础。
其他文献
随着建设领域与国际的接轨,国内大型工程监理企业逐渐开始向国际上通行的项目管理方向研究与摸索。建设部在2004年11月16日下发了《建设工程项目管理试行办法》,初步规范了建设
山草果(Aristolochia delavayi Fr.)系马兜铃科马兜铃属植物,原变种为贯叶马兜铃Aristolochia delavayi Fr.var.delavayi作为中国特有种,主产于滇西北及四川西南部金沙江干热河谷
学位
  2011版数学课程标准总体目标"双基"到"四基"的转变,进一步凸显了数学基本思想的地位。图形与几何作为数学课程内容的四大模块之一,蕴涵着多样的基本思想。本文将以《圆的面
聚肌胞(polyinosinic-polycytidylic acid,polyI:C)是由聚肌苷酸和聚胞苷酸通过碱基互补配对形成的双链RNA,是一种高效干扰素诱导剂。本研究利用国产原料首先对聚肌胞的合成条
对羟苯基丙酮酸双加氧酶(4-Hydroxyphenylpyruvate Dioxygenase, HPPD,EC 1.13.11.27)是催化对羟基丙酮酸生成尿黑酸反应的关键酶。在植物体中,该酶是质体醌和生育酚生物合成的重要酶类,而质体醌是类胡萝卜素生物合成中的重要辅助因子。抑制对羟苯基丙酮酸双加氧酶的作用将会导致植物体白化死亡。目前国内外研究尚未发现天然HPPD具有的抗性,而本实验室梁玉玲教授发
学位
  本文通过对福州某化纤公司锅炉爆管事故的原因分析,并对SZL型工业锅炉的结构进行分析,发现该型锅炉存在的水循环缺陷和不合理结构,指出该爆管事故的主要原因是水循环故障。
学位
  处于不同生长期的人工杉木林,其各种生物量的生长和呈现的植被光谱区别较大。利用野外林木的样地实测数据和QuickBird遥感影像呈现的植被光谱,从高分辨率遥感影像获取一系
向家坝水电站是金沙江下游河段水电开发的最下游梯级,为多目标综合利用工程,工程开发任务以发电为主,同时改善通航条件,兼顾防洪、灌溉,并具有对溪洛渡水电站进行反调节等作用。水