基于神经网络方法蛋白质二级结构预测的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zhouli1017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学包含了生物信息的获取、处理、存储、分发、分析和解释等各个方面,特别是综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。目前主要的研究对象是生物大分子,采用计算机作为主要的研究工具来加工这些生物大分子的数据。随着互联网络的发展,给生物学家们提供了更好的交流机会,一些部门提供了数据的共享、查询、分析等相关服务。目前,蛋白质空间结构的预测方法可以分为两大类:分子动力学方法主要是从一些基本原理或假设出发,来预测和研究蛋白质的结构和折叠过程,但这一方法无法解决全局自由能最小的问题;基于知识的预测方法,主要是从观察和总结已知结构的蛋白质结构规律出发,来预测未知蛋白质的结构。蛋白质是在分子级执行最基本生命功能的多肽链,多肽链被认为是二十种氨基酸字符的线性序列,它折叠成为与其功能相应的复杂的三维结构。预测蛋白质如何折叠的关键一步是预测它的二级结构,二级结构由局部折叠规则构成,常常由氢键维持。蛋白质二级结构预测是生物信息学中的重要课题之一,二级结构预测就是给出由氨基酸组成的蛋白质序列中每一个氨基酸所对应的结构是什么。二级结构预测方法区分?螺旋(Helix)、?片段(Strand)和非常规结构。Helix对应的表示为H,Strand为E,非常规结构为C。由于径向基函数网络在逼近能力、分类能力和学习速度等方面均优于BP网络,针对这一复杂非线性的模式分类问题,本文在分析了基于神经网络蛋白质二级结构预测方法的基础上,探讨了基于径向基函数网络的预测途径。同时研究了蛋白质二级结构预测算法研究中的数据选取、网络参数确定和参数对网络性能的影响,模型的实验结果预测准确率平均可以达到69%左右,表明基于径向基函数网络预测的可行性和有效性。选择适当有效的训练集是进行本项研究工作的基础。有些序列会主要由其中某一种结构组成,所以在选取训练集的时候必须要注意。为达到较高的预测准确率,训练集必需足够大,而且要包含一定数目的各种结构。利用网上的蛋白质结构数据库PDB提供的数据,构建适合本文应用的数据库。根据需要构建数据库很重要,因为以下两点:PDB数据库蛋白质记录很长很详细,必须从中提取相关部分,建立自己的数据库;必须从蛋白质数据库中选取合适以及足够大量的蛋白质集作为训练与测试集。相邻残基之间的相关性对预测蛋白质二级结构是十分重要的。简单径向基网络的预测精确度受限,正是由于缺乏对这种相关性的“理解”。在预测<WP=53>蛋白质二级结构时,为更多的参考序列中相邻残基之间的相关性,在利用简单径向基网络进行预测的基础上引入级连径向基网络。级连后的网络可以学习相邻残基之间的相关性。利用进化信息可以提高基于神经网络预测方法的准确度。为将进化信息引入二级结构预测中,需要把一个未知结构的序列同数据库中已知结构序列进行比对抽出同类者。进行多序列比对,就是为引入相关蛋白质家族的进化信息。通过序列比对之后提取蛋白质家族的信息,就是利用进化信息,从而有效地提高蛋白质二级结构的预测准确率。然而在这一的过程中,在一些情况下却不可避免地错误引入了其它非相关蛋白质家族的信息。也就是说,经多序列比对产生的结果有可能被“污染”。研究者认为,为防止“污染”进行多序列比对的数据库应该先被“过滤”。本文实验第一步用简单的RBF网预测蛋白质二级结构。实验隐层结点数的变化对预测结果的影响,本文实验结果证明,使用31个隐层节点时效果最佳。简单RBF网可以达到大约63%左右的预测精确度。第二步将径向基函数网级连。级连以后,对窗口大小也需要通过实验来决定。经试验,认为窗口大小w =15时效果最佳,级连可以达到69%左右的预测准确率。第三步,用PSI-BLAST程序来进行训练前的序列比对,以得到结果中氨基酸残基的出现频率作为第一层的输入。这只是利用进化信息的一种初步尝试,可以再将预测准确率提高几个百分点。研究结果表明,更多的参考序列中的进化信息,调整隐层神经元数目以及窗口宽度设计等方面的网络参数,能够进一步提高蛋白质二级结构的预测精度。本文用径向基神经网络开发了蛋白质二级结构预测系统,取得了一定的应用成果。
其他文献
文化词语蕴含着丰富的民族文化内涵,它从各个方面体现着中华民族的生活习惯、社会状况、风俗传统、理想信仰、思维方式及价值取向等等。可以说,它就是中国文化的重要组成部分
中小企业逐渐成为国家经济发展的不可缺少的组成部分,而其融资难问题是当前比较突出、迫切需要改进的问题。五大国有商业银行作为服务中小企业的主力军,存在着经营模式落后的弊
【正】 一九四四年八月底九月初马克思和恩格斯在巴黎会见,两人决定合写著作。他们合写的第一部著作就是《神圣家族》。《神圣家族》主要批判青年黑格尔派,清算他们的主观唯
<正>唯物辩证法是关于自然界人类社会和思维运动发展的科学。对立统一规律揭示了事物发展变化的源泉和动力。毛泽东指出:“矛盾的对立面又统一,又斗争,由此推动事物的运动和
目的:探讨2型糖尿病患者发生低血糖的相关危险因素,为临床糖尿病治疗过程中血糖安全达标、有效规避低血糖提供参考。方法:选择2010年4月–2011年12月于我院内分泌科住院的640
在丹麦的奥尔堡大学,一批技术人类学的研究者,基于共同的研究兴趣和相似的研究观点,在技术人类学领域开创了独具特色的奥尔堡学派。奥尔堡学派将技术-人类学作为其主要的研究
在广西金钟山自然保护区共采集昆虫标本2 000余号,经初步鉴定计有559种,分别隶属17目126科397属,以鞘翅目所占比例最大,鳞翅目次之。通过对昆虫资源的调查,初步掌握了该自然
先进高效的重型燃气轮机透平高压叶片工作在高温、高压、高转速的严苛环境中,为了评估其安全可靠性,本文基于三维稳态粘性Navier-Stokes方程,考虑气动与热物理场的耦合,运用
<正> 一、对甲基苯乙烯(PMS)的工业化进展 1.PMS向大规模工业装置过渡 Mobil公司与Hoechst公司联合开发成功新型单体,称Mobil PMS。Hoechst公司将苯乙烯单体(SM)装置改为1.6
本文以长江三峡库区涪陵至铜锣峡河段航道整治爆破工程为基础,结合前人的研究成果,采用室外试验与现场调研结合、定量分析与定性分析结合的方法,详细讨论了岩石微差网路技术