论文部分内容阅读
我们从蛋白质氨基酸序列出发预测结构码,通过约化氨基酸类,扩充结构码隐态改变转移概率,最终实现结构码预测30%左右的精度。我们由无缝穿引法对某一序列生成伪结构,分别构造利用结构码和配位数的简单的单体项形式去评估它们。基于氨基酸和结构码的联合概率p((a)i,ci)的局域项能够有效的识别出绝大多数蛋白的天然结构。我们利用配位数构造的混合模型,尽管识别天然结构的能力有限,但是得到的不同环境态下,氨基酸和结构码表现出有意义的倾向性。配位数是带有三维结构空间限制的一维化的表示,利用这种表示我们在MJ的框架下,基于概率模型导出了和MJ的(e)a可比的单体能ua。通过最大化残基和配位数的互信息,我们得到了粗粒化的两态结果。两态的二体修正有明显的差异。我们在数据库里寻找对结构稳定性起关键作用的保守的邻对。我们只关心不同的规则二级结构之间的相互作用,在不同的家族之间,我们找到了一些保守的我们称为工字型的邻对。这些典型的工字型在结构上和序列上都很保守,所以我们把它们称为拼装基元,这些拼装基元携带着很强的序列信号。邻对是一个广泛的概率,包括局域邻对和序列上远程的邻对。即使是远程的邻对,仅其中一部分对结构起主导作用,序列信号要比其它的强。我们只有找到这些结构上序列上都保守邻对,才能真正对结构起到限制作用,并可能对势函数有实际意义的贡献。