论文部分内容阅读
蛋白质结构与功能预测是蛋白质组学中一个发展已久且极具挑战性的研究热点,已成为后基因组时代生命科学中的重大研究课题之一。随着现代生物科学与技术的迅速发展,大量蛋白质序列数据不断涌现,深入研究这些序列数据进而达到对蛋白质化学和生物意义的深入理解,是现代生物信息学研究的主要任务。尽管蛋白质的结构和功能可以通过实验方法来确定,但采用实验方法具有耗时和费用昂贵等不足。因此,发展仅仅基于蛋白质氨基酸序列就能自动可靠地对蛋白质结构与功能进行预测的方法具有十分重要的理论意义和实用价值。基于蛋白质结构与功能的研究现状,本文创新性地提出将支持向量机与小波变换有机结合,构建了-小波支持向量机新模型,用于蛋白质结构与功能的分类预测,取得的主要成果如下:1.将小波支持向量机模型用于G蛋白质偶联受体家族的预测。预测模型主要包括三个步骤:首先利用氨基酸物理化学性质将蛋白质氨基酸序列转换为数字信号,再利用离散小波变换对氨基酸序列进行分解,提取G蛋白质偶联受体家族的特征向量,同时对小波基和分解层次优化选择,最后将所获得的特征向量输入到支持向量机进行分类预测。预测分为三个层次进行:首先分类识别G蛋白偶联受体三个家族,再进一步确认A家族类视紫红质受体蛋白的三个亚家族,最后确认G蛋白偶联受体的亚亚家族。小波支持向量机对G蛋白偶联受体三个层次的蛋白质家族预测准确率分别为99.72%、97.64%和99.20%,与文献结果相比,本方法具有预测简单、直观和预测准确率高等优点。2.将所构建的小波支持向量机模型用于酶家族和氧化还原酶亚家族的分类识别。酶蛋白分为六类家族,其中氧化还原酶含有16类亚家族,为了解决多类分类难题,本文分别采用一对一和一对多的分类策略对酶家族数据集C1200和C2640进行Jackknife检验,预测准确率分别为91.90%和99.17%,明显优于文献报道方法。同时,本文还对小波分解尺度、小波函数、支持向量机核函数以及氨基酸物理化学性质等参数进行了探讨和优化。结果表明,离散小波能有效地解析氨基酸序列信号,并有效地从小波分解系数中提取出酶蛋白的结构特征,从而获得了极高的预测准确率。3.将小波支持向量机模型与多类氨基酸物理化学性质相融合,利用小波变换多分辨原理对氨基酸序列进行特征提取,进而将筛选的特征向量输入到支持向量机中用来识别蛋白质二级结构。采用文献常用的蛋白质数据集对模型进行jackknife检验,结果令人满意。同时,还深入研究了低同源性蛋白质序列对预测准确率的影响,即分别采用W1189(同源性低于40%)和25PDB(同源性低于25%)进行了测试,预测结果分别为76.47%和85.72%比文献方法提高17%和23%。上述结果表明,本方法有效地克服了低同源性对理论预测方法的影响,满足生物信息学对蛋白质结构预测的要求。以上基于小波支持向量机模型的各类蛋白质分类预测技术都已编写了较完整的自动运行程序,可共享使用。本文获得了国家自然科学基金和江西省自然科学基金的资助。