论文部分内容阅读
多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择与模型构建三个关键环节。多肽/蛋白质的高级结构与功能本质上由其一级结构决定,其高级结构甚难测定而基于氨基酸序列的一级结构简便易得。本文以氨基酸组分、地统计学关联、k-space等表征氨基酸序列(特征获取)。以改进前期发展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法,实施特征非线性筛选,去除无关、冗余的特征(特征选择)。以结构风险最小、适用于小样本、能有效避免过拟合的支持向量机为基本建模工具(模型建立),对蛋白质折叠速率数据集进行了回归预测,对细胞穿膜肽数据集、芋螺毒素超家族数据集进行了分类识别,结果如下:基于岭回归与支持向量回归(SVR)预测蛋白质折叠速率。对96条长度大于50的蛋白质序列,以地统计学关联与k-space表征氨基酸序列,分别经岭回归粗筛和多轮末尾淘汰精细筛选,分别保留25个和15个特征。对这两组特征建立SVR回归模型,模型相关系数分别为0.89和0.93。非线性解释体系表明SVR模型和保留的特征均达极显著,序列长度大于50的蛋白质折叠速率与不同亲水比例的二态模型中自信息值、序列频率、侧链角度、相对可变性、含有至少一个脂肪族氨基酸的氨基酸对频率相关。甘氨酸、丙氨酸、亮氨酸等的影响较大,中长距离的影响较大。基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率。在氨基酸序列长度较短时,获取稳定有效的特征尤为困难。合并96条序列长度大于50的蛋白质与19条序列长度小于50的多肽得到115个样本的混合数据集。以氨基酸组分、地统计学关联、k-space等表征氨基酸序列,经改进的二元矩阵重排过滤器初筛,再以多轮末尾淘汰精筛,最终得23个保留特征,以此建立的SVR回归模型相关系数为0.95,以SVR非线性解释性体系分析了模型与保留特征的显著性及单因子效应。结果表明,蛋白质折叠速率与序列长度、重分类的三联体残基组份特征、脂肪族氨基酸、中短程关联特征相关密切。基于序列特征的细胞穿膜肽与非穿膜肽识别(二分类)。考虑531种氨基酸物化性质以地统计学关联表征85条细胞穿膜肽和非穿膜肽序列,采用t检验和多轮末尾淘汰进行特征筛选,去除无关、冗余特征,建立了非线性支持向量分类(SVC)模型,获得了83.53%的准确率,优于文献报道结果。基于序列特征的芋螺毒素超家族识别(多分类)。对芋螺毒素A家族(63条)、M家族(48条)、O家族(95条)、T家族(55条)、非芋螺毒素肽(60条)的数据集,以伪氨基酸组分、κ-space、氨基酸物化性质表征321个氨基酸序列,经二元矩阵重排过滤器和多轮末尾淘汰特征选择后建立了SVC模型,获得了92.83%的准确率,优于文献报道结果,可进一步用于指导芋螺毒素超家族的发现。