论文部分内容阅读
随着人类基因组计划(HGP)的顺利完成和现在生物科学和技术的迅猛发展,每天都有大量的蛋白质序列数据不断涌现。对这些数据进行深入研究以达到对化学和生物意义的深入理解是现代生物信息学的热点。蛋白质结构分析的经典方法是x射线晶体学和多维核磁共振技术。这些技术昂贵、费时、甚至有些蛋白质根本无法用这些方法测出结构;而另一方面,蛋白质测序显得相对简单、快捷和廉价。因此,从蛋白质序列出发,发展自动、可靠的理论预测方法具有十分重要的理论意义和实用价值。本文根据蛋白质结构、功能的预测研究现状,采用新兴的机器学习方法—支持向量机,并结合离散小波变换技术,对蛋白质的结构与功能预测进行研究,其主要内容如下:1.提出了预测蛋白质二级结构的新方法—小波支持向量机方法。本文定义了一种新颖的蛋白质序列表征方法,用于表征蛋白质样本,采用小波支持向量机对蛋白质的二级结构类型进行预测。对文献中常用的非同源蛋白质的数据集进行了自检验和留一法检验,预测结果得到了显著提高。在此基础上,进一步深入研究蛋白质序列的同源性对预测准确率的影响;对Chou构建的高同源蛋白质数据库(同源性高于95%)和Wang构建的低同源蛋白质数据库(同源性为30%)进行了测试,结果表明,蛋白质序列的同源性对蛋白质二级结构预测的准确率有较大的影响。2.建立了酶与非酶分类预测的新方法。以代码为1A2J酶蛋白为例,描述了应用离散小波变换提取酶结构特征向量的过程;并对小波尺度、小波函数和疏水标度值等影响因素进行了探讨和优化。采用Paul等人构建的数据库P1178,以及Cai等人构建的数据集C1200对本方法进行了验证,总的预测精度分别达到了95.59%和93.75%,优于现有文献的报道。同时,还分析了预测结果出现偏差的原因。结果表明,离散小波能有效地解析氨基酸序列信号,并有力地从小波分解系数提取酶蛋白序列的结构特征;与国际上流行的方法相比,本法具有预测简单、直观和准确率高等优点。3.建立了凋亡蛋白亚细胞位点预测新方法。基于离散小波技术,提出了小波支持向量机方法,用于凋亡蛋白亚细胞位点定位研究。本方法主要包括三个步骤,首先应用氨基酸疏水值将蛋白质氨基酸序列转换为数字信号,然后利用信号处理工具—离散小波变换提取凋亡蛋白的时-频特征,最后根据优选的时-频特征用支持向量机进行模拟预测。对Zhou和Doctor建立的标准数据集ZD98、Zhang等人的数据集ZW225,以及Chou和Lin建立的数据集CL317进行了Jackknife检验,预测精度分别为88.8%,87.6%和97.5%,优于多数文献报道的方法。由于该方法仅仅基于氨基酸序列就可以对蛋白质结构类进行分类识别,这将有助于解决当蛋白质结构实验数据缺乏的情况下亚细胞位点的预测问题。4.建立了一种膜蛋白类型预测新方法。现有蛋白质亚细胞定位方法针对水溶性蛋白质而设计,对跨膜蛋白并不适用。本文提出了一种预测膜蛋白结构类型的新方法。该方法将小波分析技术与支持向量机算法有机结合,利用小波变换多分辨原理对氨基酸序列进行特征提取,进而将筛选的特征值输入到支持向量机分类器中用来识别膜蛋白结构类型。数据集中测试结果表明,此方法性能优于多数文献报道的方法,是一种有效的膜蛋白结构类型预测的方法。以上蛋白质分类预测技术都已编写了完整的处理程序,可以极为方便地使用。