论文部分内容阅读
随着人类基因组计划的顺利完成,以及现代生物科学和技术的飞速发展,每天都有海量的蛋白质序列数据不断地涌现。如何揭示这些数据的内涵,提取有用的化学与生物信息,已经成为化学计量学和化学信息学的研究热点。虽然可以通过实验的方法确定蛋白质的结构和功能,但是实验方法既费时又费力,并且已知序列与已知结构和功能的蛋白质数目之间的差距越来越大。因此,从蛋白质序列出发,发展自动、可靠的理论和计算方法预测蛋白质的结构和功能具有十分重要的理论和实际意义。
本文立足于大量的生物信息数据,将化学计量学中的支持向量机、遗传算法、小波变换以及主成分分析等方法应用于化学生物信息的处理,提出了一系列的蛋白质结构和功能预测新方法,其主要内容如下:
1.建立了基于遗传算法与支持向量机耦合的蛋白质结构类预测方法。基于信息融合的思想,利用改进的遗传算法同时优化支持向量机的核参数和用来表征蛋白质一级结构的描述符子集。对包含204个非同源蛋白质的C204标准数据集进行了预测,jackknife交叉验证的总精度达到了99.5%,并且对于较难预测的α/β和α+β类蛋白质预测精度分别达到了97.8%和100%,明显优于文献报道值。结果表明:本文提出的方法能够有效的提高蛋白质结构类的预测精度,并且有望用于蛋白质其它属性的预测。
2.提出了新的伪氨基酸组成表示方法。基于连续小波变换的时域和频域分析特性以及主成分分析的数据压缩和特征提取性能,首先用氨基酸残基的各种物理化学性质参数将蛋白质序列映射为数值序列,然后进行连续小波变换,计算小波功率谱,最后利用主成分分析技术对小波功率谱进行数据压缩,并与氨基酸组成相结合,构成伪氨基酸组成表征蛋白质一级结构。将其与支持向量机结合,采用一对一的分类策略,对蛋白质结构类预测进行了研究。对文献报道的标准数据集进行了预测,jackknife交叉验证表明结果优于大多数文献报道值。结果表明:基于连续小波变换和主成分分析方法的伪氨基酸组成表征方法能够有效的反映蛋白质序列中的长程相互作用和氨基酸序列次序信息,从而提高预测精度。
3.建立了G蛋白偶联受体功能类预测新方法。基于各种蛋白质一级结构描述符和特征子集选择方法,提出了双层支持向量机方法,用于G蛋白偶联受体功能类预测研究。预测系统的第一层主要预测一个给定的蛋白质是否是G蛋白偶联受体,如果是,则通过预测系统的第二层精确预测是哪一种功能类。对文献报道的数据集进行了jackknife交叉验证,每层的预测精度明显高于文献值。结果表明:最优特征子集能够获取与G蛋白偶联受体功能类最相关的描述符,从而提高G蛋白偶联受体在超家族和家族水平的预测精度。
4.建立了蛋白质与蛋白质相互作用预测新方法。首先,基于不同的负样本产生策略,研究了氨基酸组成、二肽组成、各种自相关函数以及组成,转变和分布等描述符对不同数据集的预测能力。然后,基于特征选择方法,采用支持向量机预测蛋白质与蛋白质的相互作用。结果表明:各种描述符对于基于不同负样本的数据集的预测能力各不相同,负样本的参数策略是影响预测精度的重要因素,基于特征选择技术的最优描述符子集能够明显地提高蛋白质与蛋白质相互作用预测的精度。
5.建立了基于粒子群优化算法与支持向量机相耦合的建模方法。针对粒子群优化算法中群体多样性降低导致“早熟”的现象,将遗传算法的变异思想引入到粒子群优化算法中,并将改进的杂交粒子群优化算法与支持向量机耦合进行定量结构活性关系研究。改进的连续和离散粒子群优化算法分别用于优化输入支持向量机的分子结构描述符子集和核参数。对具有细胞凋亡诱导活性的4-芳基—4H—苯并吡喃类衍生物进行了jackknife交叉验证,相关系数平方、均方根差和F统计值分别达到了0.939、0.1652和40.6361,优于文献报道值,表明了该方法的有效性。