论文部分内容阅读
随着人类基因组计划的完成和现代生物科学与技术的迅猛发展,每天都有海量的蛋白质序列信息不断的涌现。如何对这些数据进行深入研究,提取有用的化学与生物信息,已经成为化学计量学和化学信息学的研究热点。本研究基于海量的蛋白质序列信息,将化学计量学中的支持向量机、随机森林、遗传算法、蚁群优化算法、连续小波变换等应用于化学生物信息的处理。提出了一系列的蛋白质结构和功能预测新方法,其主要内容如下:
1.建立了G蛋白偶联受体功能预测新方法。基于各种蛋白质序列描述符以及最小冗余最大相关和遗传算法等特征选择方法,构建了三层支持向量机系统预测G蛋白偶联受体功能。系统的第一层主要预测一个给定的蛋白质是否是G蛋白偶联受体类蛋白质。如果是,则通过系统的第二层和第三层预测该蛋白质具有何种功能。基于文献报道数据集,当前方法与其它方法进行了比较,结果表明:特征选择方法能够获取与G蛋白偶联受体功能最相关的描述符子集、显著提高G蛋白偶联受体功能预测的精度。
2.建立了G蛋白偶联受体与G蛋白耦合特异性预测新方法。基于连续小波变换的时域和频域分析特性以及信息论在信号处理和分析中的优势,提出了新的蛋白质序列以及相互作用信息表征方法。采用支持向量机构建了四层预测系统,预测G蛋白偶联受体与G蛋白耦合特异性。系统的第一层主要预测两个给定的蛋白质是否是G蛋白偶联受体和G蛋白。如果是,则系统的第二层和第三层对该G蛋白进行进一步分类。第四层预测该G蛋白是否能与G蛋白偶联受体耦合。基于构建的标准数据集,与文献报道方法进行了比较。结果表明,基于连续小波变换和信息论的方法能够有效的表征蛋白质序列以及相互作用信息。
3.建立了改进的蚁群优化算法与支持向量机耦合的蛋白质甲基化位点预测新方法。基于信息融合的思想,利用改进的蚁群优化算法同时优化支持向量机的核参数以及表征蛋白质序列的物理化学性质描述符子集。对建立的赖氨酸和精氨酸甲基化位点数据集进行了预测,10折交叉验证预测总精度分别达到了89.44%和87.83%。与文献报道方法进行了比较,结果表明当前方法获得了较高的预测精度。最优特征子集的分析表明,一些上游和下游残基在蛋白质甲基化中具有重要的作用。
4.提出了基于随机森林算法和拓扑结构描述符的人类蛋白质复合物识别新方法。基于人类蛋白质相互作用网络以及蛋白质复合物拓扑结构的特异性,使用随机森林方法从局部子图中识别人类蛋白质复合物。在蛋白质复合物拓扑结构中,每一个蛋白质均被表示为一个点,并且采用包括氨基酸组成、二肽组成在内的多种蛋白质序列描述符进行表征。将该方法应用于人类蛋白质相互作用网络,识别出了新的蛋白质复合物。基于基因本体论的分析表明,这些被识别的蛋白质复合物很可能是真实的蛋白质复合物。