论文部分内容阅读
蛋白质作为构成生命的基础有机大分子物质,其特性一直是人们所关注和研究的重点。在蛋白质的众多特性之中,蛋白质的热稳定性就是蛋白质的一项非常重要的特性。热稳定性好的蛋白质比其他蛋白质对高温环境具有更好的耐受能力,并有非常好的应用前景,然而目前对影响这一特性的特征挖掘却并没有取得很好的效果。本文针对蛋白质的这一重要特性,采用生物信息学的方法挖掘对蛋白质热稳定性有影响的序列特征,并通过序列特征预测提高蛋白质热稳定性的突变位点。主要工作包括以下三点:(1)本文构建了不同最适温度细菌的同源蛋白数据库集,根据同源蛋白的序列比对,找到对同源蛋白最适温度有影响的序列位置。对这些位置的氨基酸进行氨基酸组成、进化特征、氨基酸指数、蛋白质二级结构特征分析。通过分析,找到了一些造成同源蛋白最适温度差异的特征。(2)本文构建了不同最适温度的酶数据集,并且提出了一种新的序列特征提取方法——短片段模糊匹配方法。该方法对一定长度的蛋白质序列片段按照一定规则匹配到完整的蛋白质序列中,通过不同的蛋白质匹配的频率不同,计算该序列片段与蛋白质最适温度的相关性,从而构建与最适温度有明显相关性的特征片段库。对一个未知的蛋白质序列进行特征片段库中的短片段模糊匹配,即可预测蛋白质序列中与其热稳定性相关的位点。根据对比传统预测方法和在热力学突变数据库中进行预测验证发现,该方法具有较好的预测效果,且更利于实验设计。(3)本文将短片段模糊匹配方法应用到具体的实验中,实验采用中温淀粉酶和高温淀粉酶作为材料。通过本文方法预测提高蛋白热稳定性的突变位点,在结合一定的空间结构信息之后,实验最后取得了较好的结果。本文中的预测方法是一种局部特征匹配方法,其最主要的贡献在于可以快速定位到序列中与蛋白质热稳定性相关的位置,便于生物实验人员进行蛋白质突变实验设计,这也是众多全局特征匹配方法所不具备的优势。