基于逐步判别分析的蛋白质序列信息提取的方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:birdinfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的实施使得蛋白质的一级结构数据与日俱增.但是,人们对蛋白质的三级结构和功能的认识却远远落后于一级结构的积累.后基因组时代迫切需要人们寻找有效的理论方法来从蛋白质一级结构预测三级结构和功能,以便于基础研究或在医学、农业及工业生产中的应用.在这样的前提下,文中提出了一种有效地从氨基酸序列来提取信息,提高预测准确率的新方法.该方法基于多元统计中的逐步判别分析,在每次循环中选取一些相对较为重要的肽,用来产生新的更长的肽.最后用选取的氨基酸和肽进行判别,结果比已有方法有很大改善.文中主要工作如下:1、对三个不同的结构类数据库进行预测,准确率比以往方法高15到20个百分点.2、用从较大的数据库(PDB40-b)中提取出的参数来预测较小的库(PDB40-j),超过80﹪的序列被准确地判别出其结构类型,准确率仍比其它方法高.3、对于其中两个数据库,随机地从中取一部分序列作为检验集,将剩余的序列作为训练集,用从原数据库中选取的变量进行预测.反复进行100次,预测结果都比较高,和1中结论没有很大差距,显示该方法的有效性.4、用从较大数据库中提取的变量进行典型判别,寻找与组有最大可能多重相关的变量的线性组合,得到三个典型变量.用它们作三维描点图,各类数据被很好的区分.5、用该方法对蛋白质亚细胞位置进行预测,也得到很好的预测结果.且所选变量的生物意义比较明显.
其他文献
期刊
期刊
期刊
该文研究了DB(4,λ;υ)的存在性问题,显然一个DB(4,λ;υ)存在的必要条件为υ≥3w+1且λ(υ-1),λ(w-1)≡0(mod3).由此可知,为解决任意指标λ的DB(4,λ;υ)的存在性问题,我们
时滞现象普遍存在于通讯系统,生物系统,以及电力系统等实际工程问题中,且时滞的存在往往是导致系统性能不稳定的重要因素之一.因此,近几年来对时滞系统的研究一直受到许多学者的
期刊
摘 要:高校中的二级学院,是人才培养,知识创新和服务社会的基本组织单位。院级党组织可以从科学合理的定位,加强领导方式和制度的创新和体现人文关怀等方面开展工作,在学院内部营造和谐的事业环境,使学院在和谐社会的建设发展中发挥更大的作用。  关键词:高校院级党组织;和谐事业环境;作用    党的十六届四中全会通过的《中共中央关于加强党的执政能力建设的决定》明确指出:“坚持最广泛最充分地调动一切积极因素,
从1959年12月10日到1960年2月9日,毛泽东组织了一个读书小组,先后在杭州、上海和广州读苏联的《政治经济学教科书》。在边读边议中,他发表了大量评论性的意见,提出自己的许多
很多基层党支部书记反映,支部工作创新难度大,其中最为困惑的是不知道从哪里入手,哪些创新才真正具有价值。针对这些问题,我们邀请了几名基层党务工作者进行了探讨。 Many g
本文主要阐述了关于球面上液晶结构的数值模拟方法及其结果,从推导一个二维球面张量模型,到使用球调和展开进行数值计算,然后再比较模拟得到的结果。  缺陷是液晶领域的一个重