【摘 要】
:
采用生物信息学分析与实验确认相结合的技术路线,通过所识别的基因在非冗余数据库比对,发现了网上公布的计算机注释人类基因组编码序列存在各种类型的多处错误,包括cDNA水平
【机 构】
:
清华大学生物信息学研究所生物信息学教育部重点实验室,清华大学信息科学技术学院智能技术与系统国家重点实验室,北京100084北京大学人类疾病基因研究中心,北京100083
【出 处】
:
2003年中国博士后生命科学学术研讨会暨院士论坛
论文部分内容阅读
采用生物信息学分析与实验确认相结合的技术路线,通过所识别的基因在非冗余数据库比对,发现了网上公布的计算机注释人类基因组编码序列存在各种类型的多处错误,包括cDNA水平的一个或一段碱基插入、缺失或突变,或是这些错误的不同排列组合。举证了NCBI GE-NOME Annotation Project预测人类新基因的下列错误类型:
1)开放读码框架(ORF)中错误插入一个碱基造成编码氨基酸移码;
2)错误拼接;
3)开放读码框中错误插入一个或一段碱基造成该读框提前终止,只编码N端氨基酸的cDNA序列而不完整;
4)只有编码C端氨基酸序列的cDNA而不完整;
5)只是正确基因ORF中间的一段编码蛋白cDNA序列而不完整,缺N端与C端氨基酸序列,并且将不完整蛋白氨基酸序列的第一个非起始码氨基酸错误地预测为起始码氨基酸,如将L错误地预测为M;
6)开放读框中错误插入一个或一段碱基造成前面出现不该有的终止码,因而编码蛋白缺开头部分氨基酸;
7)可能将污染基因组序列当做完整基因cDNA序列对待而预测出所谓单一外显子基因,即便真是基因,也只是较长单一外显子mRNA中有一小ORF,而ORF起始码上游同一相位确实存在终止码,无其它特点符合基因条件;
8)所预测基因只有ORF,而ORF两端没有任何EST证据,可据此ORF拼接出受EST和人类基因组双重支持的完整基因cDNA(开放读框上游同一相位有终止码),预示所预测ORF参考序列可能不正确;
9)有EST实验证据支持存在基因的人类基因组序列范围内又被预测出一条相似但更小的蛋白编码基因,因而新预测基因有可能是错误的。我们的策略既有助于发现更多的人类新基因,又有助于纠正美国国家生物技术信息中心(NCBI)基因组注释项目公布的参考序列(REFSEQs)中所存在的错误。
其他文献
本文利用国内外科技文献,围绕鱼类、无脊椎动物和藻类,综述了转基因海洋生物研究的进展及其开发和商业化现状.文章从转基因生物的环境风险、转基因生物对人体健康的影响和公
本文介绍了中国对于生物领域发明给予专利保护的历史和现状,并计论了是否应当对转基因对植物给予专利保护的争论衣中国目前的做法.
随着生物技术的迅猛发展,转基因生物在农牧业、医药医学等领域中的应用受到高度的重视.与此同时,转基因生物及其产品的生物安全性也引起了各国政府、公众和科学家的关注.对于
本文全面概述了我国现代生物技术在农业、医药、工业、海洋和环境等方面的研究和发展情况,介绍了我国生物技术发展的方针、目标和重点,以及加速我国生物技术发展的战略措施.
1996年,农业部颁布了《农业生物基因工程安全管理实施办法》(简称《实施办法》),设立了农业生物基因工程安全管理办公室和农业生物基因工程安全委员会.随着转基因生物研发进
采用放射免疫分析法测定积滞模型小鼠自然恢复组、灌喂清热化滞颗粒组和空白对照组小鼠血浆和小肠组织MOT、SS的水平,探讨了清热化滞颗粒对胃动素(MOT)、生长抑素(SS)的影响
生物安全管理涉及的领域和存在的问题很多,本文仅就生物安全管理机构、生物安全立法、能力建设和公众参与等问题进行扼要的阐述.
研究了中药狼疮定并用激素对系统性红斑狼疮(sLE)患者外周血T细胞亚群Bcl-2表达的干预作用,探讨了其免疫调节机理。53例女性SLE患者随机分为2组,西药组以强的松治疗,中西结合
在UNEP、GEF和财政部等部门的支持下,中国国家生物安全框架实施项目于2001年12月被GEF理事会批准.该项目的主要目标是:完善中国生物安全的政策和立法体系,加强生物安全管理体
为了探讨高脂血症在动脉硬化早期对内皮功能的损伤机制,建立4周高脂血症模型,继续高脂喂养16周后检测各组(正常、高脂血症、高脂血症治疗组)的TC、TG、NO2-/NO3-浓度及观察血