论文部分内容阅读
固有不规则蛋白质(Intrinsically Disordered Proteins,IDPs)的发现为蛋白质家族增添了新的生命力,它能够以灵活、可变的结构状态承担生物体内的多种生物功能,它的存在打破了经典的蛋白质结构范式。因此,对IDPs结构的研究在蛋白质学科的发展中具有“革命性”意义。目前,IDPs研究领域存在着如已知的IDPs数量较少、IDPs的折叠机理尚不清晰等许多问题,而IDPs结构预测模型则成为解决这些问题的有效工具之一。本文以氨基酸序列数据为基础,研究了 IDPs结构预测建模中特征选择与预测模型建立的方法。具体研究内容如下:(1)提出一种动态的滑窗尺度选择方法。针对现有滑窗尺度选择方法不能满足IDPs多尺度特性需要、且具有极强主观性的问题,本文提出一种动态的滑窗尺度选择方法。考虑到IDPs的多尺度特性,将氨基酸序列进行各种尺度的解耦。首先,利用差异度度量法度量基于不同滑窗尺度的基模型间的相关程度,给出滑窗尺度的选择准则。然后,利用贪婪算法,搜索能够产生较大差异的滑窗尺度,建立IDPs结构预测建模。实验验证了本文提出方法的合理性。(2)分析氨基酸的结构倾向程度,给出一个新的特征参数——结构倾向度。蛋白质的结构信息隐藏在氨基酸序列中,氨基酸的结构倾向程度是这些特征信息的外在表现形式。为了更好地表征隐藏在氨基酸序列中的特征信息,本文对氨基酸的结构倾向性进行分析,并提出一个新的特征参数——结构倾向度。考虑到氨基酸间的相互作用,本文以双肽氨基酸作为研究对象。利用统计概率的知识,定量地刻画每种双肽氨基酸形成不同结构的能力,并构造出一个20*20的打分表。然后,利用这些分值建立基于氨基酸结构倾向度的IDPs结构预测模型。实验验证了基于结构倾向度的特征信息在IDPs结构预测建模中的有效性。(3)构造IDPs结构预测建模中的特征组。目前,IDPs的折叠机理尚不清晰,现有的特征信息与IDPs结构形成之间存在着很大的不确定性。为了降低这种不确定性,本文提出为IDPs结构预测建模构建预测特征组的方法。首先,考虑到IDPs结构信息的多尺度特性,本文将长、短不规则结构区域作为两个独立的对象看待。然后,利用信息论的知识,分别计算现有的每一种属性在预测两种不规则结构类型时的能力。进而,选择预测能力较强的属性,构造IDPs预测特征组,建立基于特征组的IDPs结构预测模型。实验验证了本文所构造的特征组在提高IDPs结构预测模型预测性能中的重要作用。(4)建立基于多尺度多特征融合的IDPs结构预测模型。IDPs的结构形成是一个非常复杂的过程,基于单一模型的IDPs结构预测建模方法很难同时准确的识别不同类型的IDPs。针对这一问题,本文从多模型融合的角度出发,采取“分而治之”的策略,提出一种基于多尺度多特征融合的IDPs结构预测建模方法。与现有的基于多模型融合的IDPs结构预测建模方法相比,本文首次将不同长度的IDPs作为独立的研究对象,分而治之,构建基于不同对象自身特性的基模型,然后,利用多数投票准则,建立基于多尺度多特征融合的IDPs结构预测模型。实验验证了本文构建的IDPs结构预测模型性能良好。