基于序列多位点特征挖掘的固有无序蛋白预测

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:sangyilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
固有无序蛋白是普遍存在的一类天然蛋白,通常缺乏稳定空间结构,且与人类重大疾病密切相关,是目前蛋白质科学研究的热点之一。由于没有稳定三维结构,用实验方法测定固有无序蛋白质比较困难,因此通过计算手段基于序列特征分析及预测固有无序蛋白是重要的有效途径。本文对固有无序蛋白的研究主要包括以下两部分:一是对固有无序蛋白有序区和无序区的序列差异特征进行深入挖掘,探索能够有效区分两种区域的序列特征参数;二是在序列分析基础上,进一步融入序列多位点特征发展对固有无序蛋白有序区/无序区的分类预测算法,为今后固有无序蛋白预测提供新方法。  1.固有无序蛋白序列信息挖掘  本文基于固有无序蛋白数据库Disprot,建立了由序列长度大于30个氨基酸的749条有序区序列和387条无序区序列组成的数据集。对有序区和无序区的序列复杂度分析表明,有序区序列复杂度普遍高于无序区,表明无序区具有更明显的氨基酸使用偏好特征,进一步分析表明两者的复杂度差异与序列长度无关。为了揭示有序区和无序区的氨基酸偏好,基于本文构建数据集进行了系统的序列分析,结果发现无序区偏好使用 A、D、E、G、K、P、Q、S、T,有序区偏好使用C、F、H、I、L、M、N、R、V、W、Y,两者具有不同的序列特征。为了进一步说明有序区和无序区中氨基酸的分布差别和两者间二联体氨基酸的使用偏好,本文将氨基酸分类和CGR(Chaos Game Representation)分析方法结合,对有序区和无序区的序列差异特征进行了深入分析,研究结果表明,固有无序蛋白的无序区和有序区之间具有明显的序列差异,CGR可视化分析指出,无序区和有序区的CGR点状图密集程度具有差异,无序区含有较多的由重复残基组成的序列。以上研究结果为固有无序蛋白预测奠定坚实理论基础。  2.基于序列特征的固有无序蛋白有序区/无序区分类方法  基于固有无序蛋白有序区和无序区的序列差异特征,分别应用序列复杂度、20种氨基酸的频率、400种二联体氨基酸的频率作为分类算法的输入特征参数,同时首次引入伪氨基酸组成(PseAAC)作为描述多位点特征的输入参数,并结合支持向量机(SVM)发展了有序区/无序区的分类预测算法。研究结果表明,使用PseAAC参数可以更有效的提取固有无序蛋白无序区和有序区的信息,以该参数作为主要分类参数,结合SVM算法进行分类预测,结果显示使用Pse AAC进行分类预测时效果最好,ACC为79.22%,Sn为89.31%,Sp为59.70%,MCC为0.5211,AUC为0.8467。此外,我们通过对分类参数的缩放发现还可以提高分类的效果。因此以后值得进一步研究数据缩放对分类结果的影响。  综上所述,本文对固有无序蛋白质有序区和无序区的序列分析及分类算法进行研究,揭示了两者之间的固有差异特征,引入的伪氨基酸组成模型进一步表明从多位点方面对固有无序蛋白序列特征进行信息挖掘,可以更好的研究序列关联性,为固有无序蛋白的预测提供新方法和思路。
其他文献
现代宽带无线通信具有数据传输速率高,并可应用于高速移动场合等特点。其面临的一个主要问题是信道环境复杂,通常具有多径效应和频谱扩散效应。这就要求我们选取先进的无线传输
学位
论文从满足新型气体传感器在环境监控、食品安全等方面的社会需求出发,提出了基于金属纳米结构的有机气体传感方法,并对新型LSPR气体传感器的相关理论和实验方法进行了研究。
学位
视频内容的识别与检测是近十年来计算机视觉领域中一个十分热门的话题。随着视频监控应用的需求的大量上升,随着互联网技术的不断发展和成熟,越来越多的应用场景涉及到了视频
目的:谷氨酸(glutamate,Glu)是中枢神经系统重要的兴奋性神经递质,在哺乳动物中枢神经系统中广泛分布并在包括学习、记忆、脑的发育以及突触可塑性等方面发挥重要作用,Glu过度激
在实验室循环水养殖系统于27.0±0.5℃条件下,以等蛋白质(40%和脂肪水平(10%)设计了0%淀粉(对照)、12%生淀粉和12%糊化淀粉的二组配合饲料喂养南方鲇(Silurusmeridionalis Chen)幼
通过扫描电镜、透射电镜、原子力显微镜等对不同比表面积的石墨烯进行了表征.通过中性盐雾试验探究石墨烯的比表面积和添加量对水性环氧富锌涂层防腐蚀性能的影响.结果 表明:
幼穗分化发育是水稻产量构成过程中一个极为重要的时期。本试验,以两个常规稻亚种为材料,研究幼穗分化发育过程中胚囊与花粉的形态结构变化和相关生理活性的变化特性。以期探明水稻幼穗分化发育的规律,为水稻生产以及水稻生殖分子生物学的研究提供理论依据。以下为本文研究得到的主要结果:(1)胚囊发育从孢原细胞开始,经过两次减数分裂形成四分体,再经过三次有丝分裂,最后发育为成熟的胚囊。(2)花粉发育也从孢原细胞开始
西藏察隅县地处西藏自治区东南部,林芝地区东部的伯舒拉岭地带,属喜马拉山南翼亚热带湿润气候,四季温和,降水充沛,日照充足。察隅县管辖3乡3镇,96个行镇村.总人口27255人。20
随着我国核电站的大规模建设和运行,辐射防护及环境保护对核电站的安全运行提出了进一步要求。辐射监测系统是核电站安全运行所必要的配套设施。随着国家核电国产化的进程,辐
学位
本文通过对荣华二采区10
期刊