基于EST序列的甘蔗SNP发掘及分析

来源 :江苏农业科学 | 被引量 : 0次 | 上传用户:guw2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:从NCBI中的EST數据库下载已公布的甘蔗EST序列28 512条,利用DNAStar软件中的Seqman程序进行叠连群构建,EST序列共构建3 449个叠连群,从中筛选出93个叠连群,长度共计105 385 bp,发现候选SNP位点 1 449个,SNP平均出现频率为1.37%,共有74个contigs含有SNP位点,平均每个contig含有19.58个SNP位点,含有SNP位点数最多的1个叠连群有229个SNP候选位点,不同的叠连群含有的SNP位点数量差异较大,但转换类型与颠换类型所占比例很接近。本研究所用的叠连群的总长度是105 385 bp,平均72.93 bp含有1个SNP位点。
  关键词:甘蔗;NCBI;EST序列;DNAStar;SNP位点
  中图分类号: S566.101 文献标志码: A 文章编号:1002-1302(2016)07-0064-03
  单核苷酸多态性(single nucleotide polymorphism,SNP)指基因组内DNA序列在某一特定的核苷酸位置发生缺失、插入、颠换、转换等变化。作为第3代遗传标记,已在动植物遗传连锁图谱构建[1]、重要性状的基因定位[2]、多样性分析[3]以及品种鉴定[4]等相关研究中得到广泛的应用,跟以简单序列重复(SSR)为代表的第2代分子标记相比,SNP具有易于实现自动化分析、遗传稳定性强、密度高等优点。但SNP标记开发在前期测序阶段成本较高而限制了SNP相关标记的大规模开发。因此,利用已有数据,通过生物信息学进行相关分析来开发SNP标记,然后通过相关试验对候选SNP标记加以验证,已成为一种降低成本且快捷高效的SNP开发途径[5]。
  表达序列标签 (expressed sequence tags,EST)是来源于功能基因表达的cDNA片段,是转录区域多态性识别的重要资源,随着相关研究的深入,公共数据库中的核苷酸序列中EST序列的增速最快,以EST序列为基础开发分子标记,变得越来越方便。目前,常用的EST标记有EST-AFLP、EST-RFLP、EST-SSR、EST-SNP等[6]。除了具有一般分子标记的特点,EST标记还具有通用性好、信息量大、开发方法简单快捷以及成本低等优点。因为EST序列是基因表达区的cDNA序列,所以EST序列为基础开发出的SNP位点很可能与表达基因的功能密切相关,或者直接在基因的编码区之内,可直接用于动植物分子育种等相关领域的研究[7]。而且在EST序列中,SNP频率很丰富[8]。因此,在尚未获得基因组全序列的动植物中,开发EST-SNP标记具有重要意义[9]。但NCBI中甘蔗dbEST数据库中的EST-SNP研究在国内外尚未发现相关报道,本研究利用NCBI上公布的甘蔗EST数据中筛选SNP候选位点,为甘蔗EST-SNP标记的开发以及后续的分子生物学研究奠定一定的基础。截至2014年10月,NCBI的dbEST数据库中已收录了甘蔗EST序列28万多条,如此庞大的数据为从甘蔗EST序列中开发SNP标记提供了良好的数据支持,甘蔗EST-SNP标记的开发可为甘蔗分子育种和基因组学等方面的研究提供重要的技术支持,本研究从NCBI中的dbEST数据库中下载了28 512条EST序列,利用DNAStar软件中的Seqman程序拼接得到3 449个重叠群(contigs),并将拼接结果进行人工筛选,为提高候选SNP位点的可靠度,本研究选用的EST序列拼接而成的contigs都至少含有20条EST序列,每个候选位点都至少有5条EST序列的相关位点作为支持,旨在发掘甘蔗的EST-SNP位点和寻求能得到大量可靠的候选SNP位点的筛选方法。
  1 材料与方法
  2014年10月13日从美国国立生物技术信息中心网站dbEST数据库(http://www.ncbi.nlm.nih.gov/nucest/?term=sugarcane)下载28 512条甘蔗EST序列,所有序列均以FASTA格式保存,未得到可靠性较高的SNP候选位点,本研究用DNAStar软件中的Seqman程序检测并去除所有EST序列的载体序列,然后组装拼接成contigs。因为本研究选取DNAStar软件进行EST-SNP候选位点的开发,因此筛选步骤主要分为以下几类:(1)在Seqman的拼接结果中提取包含20条以上EST序列的contigs,并在其中筛选候选SNP位点;(2)候选SNP位点两侧至少有5 bp碱基要完全保守为原则对候选SNP位点进行人工筛选;(3)对筛选结果进行整理、归纳、分析。
  SNP发掘:应用Seqman程序的SNP工具查找SNP候选位点。
  SNP频率计算:SNP频率=(候选SNP数目/contigs长度)×100%。
  2 结果与分析
  2.1 候选位点的人工筛选
  对候选软件筛选出的SNP位点根据2个筛选原则进一步人工将可靠度较高的SNP位点筛选出来:(1)候选SNP位点中的次要等位基因频率至少为30%[10];(2)候选SNP位点两侧至少有5 bp完全保守的序列。Wang等研究发现,在包含不小于4条EST序列的contigs中筛选SNP时,候选SNP位点的主要、次要等位基因出现的频率之比约为1 ∶ 1时的可靠度最高[11]。为了进一步提高候选SNP位点的可靠度,本研究在筛选SNP候选位点时,把包含4条EST序列的contigs提高到至少包含20条EST序列的contigs,同时,在1个候选SNP位点的两侧经常会出现间断或连续的非SNP位点的不保守区域,这些区域可能是在比对时序列错误引起的,从而降低了候选SNP位点的可靠度,因此本研究规定候选SNP位点两侧至少5序列必须完全保守(图1为合格SNP候选位点,图2及图3为不合格SNP候选位点)。
  2.2 甘蔗EST序列SNP频率分析   在GenBank数据库中下载28 512条甘蔗EST序列,通过序列组装构建3 449个contigs,为了提高SNP候选位点的可靠性,本研究所用的contigs均为EST序列条数大于20的contigs,经过筛选,共有92个contigs符合要求,92个contigs的碱基总数为105 385个bp,发现1 449个SNP位点,SNP出现的频率为1.37%,平均72.93个bp含有1个SNP位点。总共有74个contigs含有SNP位点,平均1个contig含有1958个SNP位点(表1),含有SNP位点数目最多的contig中含有281个SNP候选位点,含有5、8个SNP候选位点的contigs最多(8个)(表2)。
  本研究使用的EST序列包含SNP位点以碱基的颠换(49.00%)和转换(49.07)为主,其中碱基的插入、缺失的数量最少,占全部SNP的1.93%,不同叠连群所含不同突变类型SNP位点的数量差异较大,所以分布密度的变化也很大(表3)。
  由甘蔗EST序列构建的contigs中,组成contigs的EST序列条数和组成contigs的碱基数不同,得到SNP位点的频率也就不同,组成contigs的碱基数越多,其SNP位点的频率就越大。表4为甘蔗EST序列组成的序列数最多的10个contigs及SNP出现频率,这10个contigs共组装了5 053条序列,SNP平均出现频率为3.48%,明显高于所有用于筛选候选位点的contigs的SNP出现频率1.37%,所以大规格contigs(多序列、多碱基数)更易得到候选SNP位点。另外,检测 EST-SNP位点时,需大量冗余EST序列作为其检测的数据基础,如果EST条数少,得到的结果可能就不太理想,这也是本研究用至少包含20条EST序列的contigs进行SNP位点筛
  3 结论与讨论
  SNP广泛分布于动植物的基因组中,是动植物基因组中可遗传变异中最常见的一种,据估计,SNP在人类基因组中广泛分布,平均每500~1 000 bp对中就有1个SNP,其总数可能在300万个以上[12]。作为第3代遗传标记,由于SNP具有許多独特的优点,自从1994年问世以来,已越来越被分子标记领域的相关研究人员所重视,特别是cDNA的SNP,因其本身就是功能基因表达的组成部分,所以SNP被公认为新一代分子标记中最有应用前景的一类。然而,由于SNP的开发难度大、检测成本高,需要高额的资金投入以及大量的时间投入,导致该标记在甘蔗基因组研究领域的应用很少。但是如果以生物信息学为技术基础,以大量冗余EST序列为数据基础,EST-SNP的开发就成为一种既高效又廉价的方法[7,13-14]。但是,目前有很多因素都限制了EST-SNP的发掘,比如为了节约成本,EST序列在测序时只进行单向测序,测序结果的低质量进而导致筛选SNP位点会有预测已经查找方面的错误;EST序列来源对SNP位点的筛选也有很大的影响。但是,通过改进方法,可以对EST-SNP位点进行更准确、高效的发掘。通过有28万多条EST可以看出,人们对甘蔗的关注度很高,但是到目前为止还没有在NCBI中的SNP数据库中发现甘蔗SNP的相关数据,这可能与甘蔗是由多倍体原种热带种(2n=80,x=10)与多倍体野生种割手密(2n=40~128,x=8)经过一系列杂交之后形成的异源多倍体有关,其遗传背景非常复杂,染色体数在100~150条之间,因此甘蔗在分子遗传连锁图谱、质量性状基因定位、数量性状基因定位以及分子标记辅助辅助育种方面远远落后于其他作物[15]。因此,本研究对甘蔗SNP标记的开发研究就更具有重要意义,为了保证SNP位点的准确性,对满足SNP位点contigs包含的EST序列的要求就更高,必须是包含20条以上的EST序列序列组成的contigs,这样一来可能会有大量的真正的SNP位点被遗漏。但是当contigs所含EST序列较少时,又可能会有大量的EST序列无法被利用,EST序列不能被用于SNP位点的筛选,因此,笔者认为只有当contigs所含EST数目超过一定程度,筛选出的候选EST-SNP位点的可靠性才会有保证;只有当dbEST数据库中EST序列达到一定程度之后,其利用率才会得到保证,筛选出的SNP位点的可靠性才会更高。例如,利用全基因组测序,在水稻中(品种为日本晴和9311)获得了5 019 016个SNP位点[16],另外,分布于基因表达调控区,以及外显子和内含子区域的SNP可能和基因的功能直接相关[17]。同时,对contigs中所含的SNP数量进行统计分析发现,组成contigs的EST序列条数越多,碱基数越多,发现的候选SNP位点的数量也就越多,这同Duran等在研究大麦EST序列时发现的结果基本一致但是具体每个类型的contigs所含的SNP位点数没有发现明显的规律[18],这可能跟不同物种其多态性位点分布不同有关。
  大多数动植物没有全基因组序列的数据,但是有大量的EST数据可供大家分析利用,EST本身就是表达基因的片段,因此基于EST序列的的SNP可能与基因的功能以及目标的性状有更多的关联,本研究从NCBI中的dbEST序列中下载了28 512条甘蔗EST序列,分析了92个由EST序列组成的contigs,这些contigs长度共计105 385 bp,发现候选SNP位点 1 449 个,SNP平均出现频率为3.48%,总共有74个contigs含有SNP位点,平均1个contig含有19.58个SNP位点,平均每72.93 bp发现1个候选SNP位点,低于水稻基因组中SNP发生频率接近(水稻平均每89 bp有1个SNP)[19],高于玉米基因组SNP发生频率(玉米基因组平均每61 bp有1个SNP)[9]。由此可见,SNP在禾本科植物中的发生频率相差不大。接下来准备根据发掘到的SNP位点设计相应的SNP引物,并进行测序和酶切相结合的方法来验证发掘的SNP位点的可靠性,以期为甘蔗的分子遗传研究提供一定的参考。   参考文献:
  [1]Hyten D L,Choi I Y,Song Q J,et al. A high density integrated genetic linkage map of soybean and the development of a 1 536 universal soy linkage panel for quantitative trait locus mapping[J]. Crop Science,2010,50(3):960-968.
  [2]Singh A,Singh P K,Singh R,et al. SNP haplotypes of the BADH1 gene and their association with aroma in rice (Oryza sativa L.)[J]. Molecular Breeding,2010,26(2):325-338.
  [3]van Inghelandt D,Melchinger A E,Lebreton C,et al. Population structure and genetic diversity in a commercial maize breeding program assessed with SSR and SNP markers[J]. Theoretical and Applied Genetics,2010,120(7):1289-1299.
  [4]Jiang D,Ye Q L,Wang F S,et al. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Sciences in China,2010,9(2):179-190.
  [5]Kim S,Misra A. SNP genotyping:technologies and biomedical applications[J]. Annual Review of Biomedical Engineering,2007,9:289-320.
  [6]Chen Q Q,Zhan X J,Lan J Y,et al. Study progresson application of EST(expressed sequence tags)in the functional genomics[J]. Chinese Agricultural Science Bulletin,2010,26(3):59-63.
  [7]Picoult-Newberg L,Ideker T E,Pohl M G,et al. Milling SNPs from EST databases[J]. Genome Research,1999,9(2):167-174.
  [8]李雪姣,張 耿,顾爱侠,等. 芸薹属作物EST-SNP的发掘与分析[J]. 植物遗传资源学报,2010,11(6):772-776.
  [9]Ching A,Caldwell K S,Jung M,et al. SNP frequency,haplotype structure and linkage disequilibrium in elite maize inbred lines[J]. BMC Genetics,2002,3:19.
  [10]李 猛,郭大龙,刘崇怀,等. 葡糖EST-SNP位点的信息与特征[J]. 浙江大学学报:农业与生命科学版,2012,38(3):263-270.
  [11]Wang S,Sha Z,Sonstegard T S,et al. Quality assessment parameters for EST-derived SNPs from catfish[J]. BMC Genomics,2008,9:450.
  [12]Fornage M,Doris P A. Single-nucleotide polymorphism genotyping for disease association studies[J]. Methods in Molecular Medicine,2005,108:159-172.
  [13]Gu Z,Hillier L,Kwok P Y. Single nucleotide polymorphism hunting in cyberspace[J]. Human Mutation,1998,12(4):221-225.
  [14]Buetow K H,Edmonson M N,Cassidy A B. Reliable identification of large numbers of candidate SNPs from public EST data[J]. Nature Genetics,1999,21(3):323-325.
  [15]刘新龙,毛 钧,陆 鑫,等. 甘蔗SSR和AFLP分子遗传连锁图谱构建[J]. 作物学报,2010,36(1):177-183.
  [16]Zhao W,Wang J,He X,et al. BGI-RIS:an integrated information resource and comparative analysis workbench for rice genomics[J]. Nucleic Acids Research,2004,32:D377-D382.
  [17]刘学军,闫双勇,刘小红,等. 植物SNP数据库及转化CAPS的方法[J]. 分子植物育种,2006,4(3):443-447.
  [18]Duran C,Appleby N,Vardy M,et al. Single nucleotide polymorphism discovery in barley using autoSNPdb[J]. Plant Biotechnology Journal,2009,7(4):326-333.
  [19]Nasu S,Suzuki J,Ohta R,et al. Search for and analysis of single nucleotide polymorphisms(SNPs) in rice and establishment of SNP markers[J]. DNA Research,2002,9:163-171.
其他文献
学习力是指一个人学习动力、毅力和能力的综合体现。[1]在英语学习中,学生的学习力指学生对英语学科知识的接受能力,以及学习英语的动力和毅力。从字面来理解,“学习力”很容易被误认为是“学习能力”,学习力所包含的学习动力和学习毅力常被忽视。笔者观察了高三英语语法复习课后发现,很多课堂存在着影响学生英语学习力发展的教学行为。基于学生英语学习力的发展,笔者对高三英语语法复习课中的教学行为提出自己的看法,同时
摘要:为研究酸浆水提物对高脂模型大鼠血脂水平的影响,将48只大鼠随机分为6组,包括正常组、模型组、酸浆低剂量组、酸浆中剂量组、酸浆高剂量组和药物对照组。除正常组外,各组以高脂饲料喂养1个月,建立高脂血症大鼠模型,之后正常组和模型组以蒸馏水灌胃,酸浆低、中、高剂量组分别以1.5、7.5、37.5 g/kg酸浆溶液灌胃,药物对照组以辛伐他汀15 mg/kg灌胃。30 d后,测定大鼠血清总胆固醇(TC)
摘要:通过w曲线五点取样法,调查窄行平作密植大豆田的杂草群落组成和发生特点。调查结果表明,窄行平作密植大豆田杂草群落组成复杂,为多种优势杂草群落,不同地区杂草群落组成不同;种群密度大,发生密度200株/m左右。发生特点表现为:杂草群落按逻辑斯蒂曲线模式增长;发生较集中,发生高峰期仅10 d左右;杂草发生高峰期比大豆出苗高峰期早4~5 d。  关键词:杂草群落组成;发生特点;窄行平作密植大豆田  中
摘要:田间试验表明,与常规防治相比,在防治药剂用量减少1/3及药液量节省约50%的情况下,添加有机硅表面活性剂Silwet408(杰效利、丝润)后,对稻纵卷叶螟的防治效果无显著性差异甚至略优;而从保叶效果看,添加有机硅表面活性剂的处理要显著优于常规防治。  关键词:有机硅;表面活性剂;稻纵卷叶螟;增效作用  中图分类号:S 435.112.1,S 482.398    “注:本文中所涉及到的图表、
摘要:以山东省某重金属污染区域为例,以重金属污染程度、自然条件等内部驱动因子为背景,受社会经济、人口密度等外部驱动因子的综合影响,使用CLUE-S模型对该区域进行土地再利用空间优化配置,并对模拟结果进行精度评价,结果表明:Kappa指数达到0.72,模型具有良好模拟区域土地利用变化的能力,得到2007—2017年的土地利用模拟图,显示出各土地利用类型的变化趋势。人口密度增加,住宅用地增加118.7
浙江省2008年初中数学课堂教学评比与观摩活动于3月26日—28日在桐乡市举行,由各地选送的13节优秀课进行了展示,近1000人参加了观摩活动.参评教师的课堂教学都较好地体现了新课程的基本理念,释放着许多亮点,使观摩教师受益匪浅.诸暨市朱周刚老师的课,获得了观摩教师的热烈鼓掌和评委们的一致好评,下面就这节课的亮点进行评析,供同行参考和指正.  本节课的教学内容为:浙教版七年级下册4·1“二元一次方
摘要本研究通过形态学、菌丝融合群和致病力测定研究,对从河北省石家庄地区绿豆种植区分离的90个立枯丝核菌进行鉴定。在90个分离物中有71个属于AG4,占供试分离物的78.89%,2个属于AG22,占供试分离物的2.22%,另外17个分离物与标准菌株不融合,占供试分离物的18.89%;属于AG4的71个分离物中,55个与AG4完全融合(占77.46%),16个与AG4不完全融合(占22.54%)。在温
俗话说:“读书破万卷,下笔如有神。”从某种程度上看,阅读与写作密不可分,读可悟写,写亦可促读。阅读是语言的感知和理解过程,是掌握字词句的重要手段之一,是写作的前提和基础。没有阅读的积累,写作犹如空中楼阁。写作是阅读的巩固和延伸,是将阅读过程中所获得的语言、词汇等知识调动起来,表达自己的真情实感。缺少写作训练的阅读也只能是雾里看花、水中望月。  但有些教师在日常教学中往往将阅读教学与写作教学相分离,
摘要:对于确保农产品的质量安全来说,规范分析技术十分重要,因此主要讨论农产品质量检测分析技术的规范化操作意义、要点和方法。以酶抑制法快速检测农药残留为例,分别从试剂的配制、取样方法、仪器的使用3个方面介绍操作规范,对提高农产品检测结果的准确性与精密性具有积极意义。  关键词:农产品质量;分析技术;规范操作;酶抑制法  中图分类号: TS207.5 3文献标志码: A文章编号:1002-1302(2
摘要:分别从表型、染色体、蛋白质、DNA等4个层次简要概述黄颡鱼属鱼类遗传多样性的研究进展,为今后开展黄颡鱼属种质资源保护和遗传育种研究提供参考。  关键词:黄颡鱼属鱼类;遗传多样性;种质资源  中图分类号: Q959.4;S917.4 文献标志码: A 文章编号:1002-1302(2014)03-0174-05  遗传多样性(genetics diversity)为生物多样性的重要组成部分,是