蛋白质亚细胞定位数据平台与结构域融合的进化研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:xdz429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模测序计划的开展将生物信息学研究引入后基因组时代。基因功能分析和预测成为目前生物信息学研究的主要任务。为系统的研究生物大分子序列、结构和功能的关系,需要发展更先进的生物信息学研究技术和方法。 蛋白质的亚细胞定位是分析和了解基因功能的重要依据。现在已有一些基于机器学习和统计的预测蛋白质亚细胞定位的方法。我们开发了专门的DBSubLoc蛋白质亚细胞定位数据库,为开发更实用和可靠的亚细胞定位预测方法提供可靠的数据和信息。我们从Swiss-Prot等国际公共蛋白质数据库中提取有关蛋白质亚细胞定位的注释信息,从GeneOntology等国际生物学知识库中提取亚细胞结构的知识,将它们整合在DBSubLoc数据库中,构成围绕亚细胞定位功能的集成的信息资源和工具集。我们在此基础上构建了非冗余的亚细胞定位数据集,为亚细胞定位预测提供高品质的训练数据。目前DBSubLoc数据库中收录了近60000条蛋白质序列,其中非冗余数据集中收录了约30000条蛋白质序列。我们在http://www.bioinfo.tsinghua.edu.cn/dbsubloc.html网址提供国际开放的数据库服务。 基因融合分析是新兴的基因功能预测手段之一。我们在30个30个微生物基因组中大规模搜索基因融合事件,并实用隐马尔可夫模型方法对这些蛋白质进行结构域注释。由此我们构建了蛋白质结构域的基因融合图谱,结果表明,具有α/β结构类型的蛋白质更容易发生基因融合事件。 用实验方法测定膜蛋白的三维结构是非常困难的,用生物信息学方法预测膜蛋白的跨膜螺旋区对研究膜蛋白结构特征具有重要意义。小波变换是一种逐渐广泛应用的新兴信号处理方法。我们对已知跨膜螺旋区蛋白质的序列特征进行了统计,用统计产生的倾向性因子作为蛋白质序列编码依据,用小波变换方法过滤和重建编码信号,从而获取跨膜螺旋区段核心位置,通过区段延伸获得跨膜螺旋区段在蛋白质序列中的位置。经过60个蛋白质228个跨膜螺旋区段的检验表明,我们的预测方法具有较高的预测准确性。
其他文献
嗜碱放线菌是极端放线菌中的一个特殊类群,它们能产生多种碱性酶和生物活性物质,如抗生素和酶的抑制剂.国际上微生物学者对其研究,特别是对其形成的代谢产物的开发利用,已形
随着现代科学技术的发展,我国加强了矿山的爆破工作的质量.随着爆破技术的和工艺的不断提高,数码电子技术的应用发展技术有较大变化,爆破技术的发展,提升了我国矿山爆破的质
进度把控管理在建筑工程管理中是至关重要的,直接影响工程的整体施工质量和施工成本.基于此,本文以建筑工程管理中进度把控管理为研究对象,首先介绍了建筑工程施工进度控制的
我们从亚洲棉(Gossypium.arboreum L.)悬浮细胞cDNA文库中分离到一个编码漆酶的克隆,命名为GaLAC1.序列分析表明,GaLAC1编码含566个氨基酸残基的蛋白质(63.34 KDa),含4个铜离
在富营养化湖泊生态恢复中,沉水植物重建或恢复被认为是保持水生生态系统清水稳态的有效手段,生物操纵技术是提高水质和恢复沉水植物的可行办法,而近些年来湖内geo-engineering
随着社会经济的不断发展,施工技术也不断发展进步,基坑支护施工技术是高层建筑业的一项基础建设,必须保障深基坑支护施工技术的合格,才能保证施工和建筑的安全、可靠,在选择
结合实际情况进行分析,工程测绘中无人机遥感测绘技术已实现大规模运用,逐渐成为工程测绘的主要技术与方法.
信息技术的发展带来了大数据时代,在环境污染防治工作中运用大数据技术将环保数据进行整合,不仅避免了环保数据浪费的情况,还提高了环保防治工作的准确性,因此工作人员为了保
园林绿化养护是园林工程中的关键部分,通过科学的绿化养护工作能有效提升园林中植物的存活率,保障园林绿化展现应有的效果.因此在园林绿化养护管理时,需要工作人员加大对养护
改革开放以来,随着我国乡镇企业的发展和农村生活水平的提高,乡镇生产生活污水量不断增加,严重威胁原本山清水秀的农村环境.浙江地处我国东南沿海,经济发达,乡镇经济以家族企