基于氨基酸序列信息的蛋白质结构与功能预测研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:snoopy10222001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,以及现代生物科学和技术的飞速发展,每天都有海量的蛋白质序列数据不断地涌现。如何揭示这些数据的内涵,提取有用的化学与生物信息,已经成为化学计量学和化学信息学的研究热点。虽然可以通过实验的方法确定蛋白质的结构和功能,但是实验方法既费时又费力,并且已知序列与已知结构和功能的蛋白质数目之间的差距越来越大。因此,从蛋白质序列出发,发展自动、可靠的理论和计算方法预测蛋白质的结构和功能具有十分重要的理论和实际意义。 本文立足于大量的生物信息数据,将化学计量学中的支持向量机、遗传算法、小波变换以及主成分分析等方法应用于化学生物信息的处理,提出了一系列的蛋白质结构和功能预测新方法,其主要内容如下: 1.建立了基于遗传算法与支持向量机耦合的蛋白质结构类预测方法。基于信息融合的思想,利用改进的遗传算法同时优化支持向量机的核参数和用来表征蛋白质一级结构的描述符子集。对包含204个非同源蛋白质的C204标准数据集进行了预测,jackknife交叉验证的总精度达到了99.5%,并且对于较难预测的α/β和α+β类蛋白质预测精度分别达到了97.8%和100%,明显优于文献报道值。结果表明:本文提出的方法能够有效的提高蛋白质结构类的预测精度,并且有望用于蛋白质其它属性的预测。 2.提出了新的伪氨基酸组成表示方法。基于连续小波变换的时域和频域分析特性以及主成分分析的数据压缩和特征提取性能,首先用氨基酸残基的各种物理化学性质参数将蛋白质序列映射为数值序列,然后进行连续小波变换,计算小波功率谱,最后利用主成分分析技术对小波功率谱进行数据压缩,并与氨基酸组成相结合,构成伪氨基酸组成表征蛋白质一级结构。将其与支持向量机结合,采用一对一的分类策略,对蛋白质结构类预测进行了研究。对文献报道的标准数据集进行了预测,jackknife交叉验证表明结果优于大多数文献报道值。结果表明:基于连续小波变换和主成分分析方法的伪氨基酸组成表征方法能够有效的反映蛋白质序列中的长程相互作用和氨基酸序列次序信息,从而提高预测精度。 3.建立了G蛋白偶联受体功能类预测新方法。基于各种蛋白质一级结构描述符和特征子集选择方法,提出了双层支持向量机方法,用于G蛋白偶联受体功能类预测研究。预测系统的第一层主要预测一个给定的蛋白质是否是G蛋白偶联受体,如果是,则通过预测系统的第二层精确预测是哪一种功能类。对文献报道的数据集进行了jackknife交叉验证,每层的预测精度明显高于文献值。结果表明:最优特征子集能够获取与G蛋白偶联受体功能类最相关的描述符,从而提高G蛋白偶联受体在超家族和家族水平的预测精度。 4.建立了蛋白质与蛋白质相互作用预测新方法。首先,基于不同的负样本产生策略,研究了氨基酸组成、二肽组成、各种自相关函数以及组成,转变和分布等描述符对不同数据集的预测能力。然后,基于特征选择方法,采用支持向量机预测蛋白质与蛋白质的相互作用。结果表明:各种描述符对于基于不同负样本的数据集的预测能力各不相同,负样本的参数策略是影响预测精度的重要因素,基于特征选择技术的最优描述符子集能够明显地提高蛋白质与蛋白质相互作用预测的精度。 5.建立了基于粒子群优化算法与支持向量机相耦合的建模方法。针对粒子群优化算法中群体多样性降低导致“早熟”的现象,将遗传算法的变异思想引入到粒子群优化算法中,并将改进的杂交粒子群优化算法与支持向量机耦合进行定量结构活性关系研究。改进的连续和离散粒子群优化算法分别用于优化输入支持向量机的分子结构描述符子集和核参数。对具有细胞凋亡诱导活性的4-芳基—4H—苯并吡喃类衍生物进行了jackknife交叉验证,相关系数平方、均方根差和F统计值分别达到了0.939、0.1652和40.6361,优于文献报道值,表明了该方法的有效性。
其他文献
微信作为新兴的传媒体,在信息传播和人际沟通方面发挥了重要的作用,微信的聊天、朋友圈和微信公众号功能成为群众体育传播的重要途径。微信已经社会各阶层的体育团体所使用,
近几年,以《奇葩说》为首的一批脱口秀节目开始风靡,同时,美国被称为深夜脱口秀(late night talk show)的电视节目近几年也在中国网络迅猛传播。有人的地方就有江湖,中国脱口
初夏的时节,老师带着我们去农家菜田里观察各种蔬菜,我们排着长龙似的队伍出发了.rn我们来到田间,站在田埂上,展现在眼前的是一眼望不到边的蔬菜.这里的蔬菜,有的匍匐在地上;
融媒体时代,媒体资源加速共享与融合,传统媒体思维与互联网思维相互碰撞,烂尾新闻的表现与发展也出现了相应的变化。本文以5W模式为基本的分析框架,结合两级传播理论、场域理
瓜环(Q[n]s)是一类具有中空环状结构、而两端端口分布着极性羰基氧原子的新型主体化合物。普通瓜环溶解性较差,所以改性瓜环逐渐成为了瓜环研究领域的热点。特别是2003年Kim研究组报道的羟基取代瓜环改变了人们对瓜环高度化学稳定性、不能进行修饰的认识。和普通瓜环相比,羟基瓜环拥有更多的作用位点,非常有利于多维多层次超分子自组装体的合成。由于多酸或杂多酸在溶液中通常以阴离子状态出现,而瓜环的端口羰基氧
为避免使用有毒、易挥发的萃取剂进行分离富集,使用小型分析仪器实现痕量物质的测定,本文研究了浊点萃取分光光度法。当加热非离子表面活性剂TritonX-114溶液至其浊点温度时,溶液分为互不相溶的两相,Cr(Ⅵ)与二苯碳酰二肼形成的疏水性有色螯合物进入到富胶束相中,从而实现Cr(Ⅵ)离子的分离富集,然后使用可见光分光光度测定Cr(Ⅵ)含量。本实验对影响浊点萃取分离的条件进行了详细的研究,建立了线性回归
溫网大赛,绿草茵茵,白衣飘飘,人类历史最悠久的网球赛事,血脉尊贵,高光时刻总会有皇室风范加持。做个小小的假设,费德勒或者德约在决赛中,凝心聚神准备关键发球,球高高抛起,挥拍一瞬,空中白鸽掠过,一坨便便从天而降,白色战袍上留下瘢痕,一次高质量发球被摧毁,这岂不是尴尬到了极致嘛。还好,这不过是遐想而已,最近20年,在温网的赛场上,白鸽未曾如此搅扰尊贵的赛事。让恼人的白鸽却步温网,这功劳通通要归功于一只
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
氯代苯酚衍生物是一种被广泛用作农药、医药和染料中间体的重要有机化合物。近几年来,随着医药工业水平的不断提高,多种新型氯代苯酚发展成为染料和医药中间体,满足了国内外工业对氯代苯酚衍生物快速上升的市场需求。目前,氯代苯酚衍生物是由芳香族的卤化反应生成,通常会伴随着大量副产物产生,且耗费大量的能源,增加了生产成本。为提高此类反应的合成效率,降低能源消耗,本课题提出一种绿色、高效的微波辅助法来合成对氯苯酚
新媒体的发展如火如荼,媒介融合已成为媒体发展的主要趋势。在这一背景下,传统媒体更需要积极融合新媒体,探索出一条新的发展方向。党报负责发出党的声音,是人民的喉舌,更需