论文部分内容阅读
二硫键是由蛋白质的两个半胱氨酸之间配对形成的一种共价键,可以存在于同一条蛋白质多肽链内,也可以存在于不同的多肽链之间。对于许多蛋白质而言,二硫键是它们最终折叠产物的永久特征。二硫键的形成是蛋白质折叠过程中的重要步骤,其形成动力学影响蛋白质折叠的速率和途径,它的错误配对是影响蛋白质多肽链正确折叠的重要原因。二硫键的存在对于维持蛋白质空间结构稳定性,保持其生理活性具有至关重要的意义。研究形成二硫键的蛋白质序列与结构特征,找出与二硫键形成有关联的某些结构信息,对于蛋白质工程和人工药物分子设计都有着积极而重要的意义。本论文以蛋白质二硫键作为研究对象,利用生物信息学这一新兴前沿交叉学科的研究方法和工具,综合运用数学,物理学,生物学和计算机科学知识,通过构建高精度高可靠性的蛋白质二硫键空间结构数据库和大肠杆菌蛋白质二硫键与对应基因序列关联数据库两类数据库,从二硫键蛋白质的基因序列、氨基酸序列和三维空间结构等三种水平上对蛋白质二硫键形成的结构特征和序列之间的关系进行较为系统和深入的研究。研究的主要内容如下:(1)高质量蛋白质二硫键空间结构数据库的构建是进行蛋白质二硫键统计计算分析的基础。按照分辨率小于0.25nm,且序列同一性(sequence identity)小于30%的原则从PISCESCulled PDB数据库中选取高精度高可靠性的蛋白质空间结构数据,在此基础上,挑选含有SSBOND记录的PDB结构数据,通过严格的结构数据文件形式错误检验、序列自洽性检验、SSBOND记录准确性检验以及SBOND成键记录校正,删除其中包含的错误和可疑数据,成功建立一个高质量的蛋白质二硫键空间结构数据库。研究蛋白质折叠与蛋白质编码序列关系问题离不开高质量蛋白质结构及其对应基因序列数据。通过查询SWISS-PROT数据库中E. coli的蛋白质,得到不同数据库中的蛋白质结构与基因序列的交叉索引表,在此基础上,删除大量冗余及不可靠数据,最后得到一个高精度大肠杆菌蛋白质结构与对应基因序列数据集-EcoPDB,这是研究蛋白质空间结构数据与核酸序列数据之间对应关系的基础数据库。(2)研究蛋白质二硫键的形成特征和序列结构特征,对于进一步研究蛋白质二硫键的形成、与氨基酸序列之间的关系,预测半胱氨酸的二硫键形成状态以及蛋白质二硫键辅助折叠动力学具有重要作用。CYS的氧化还原状态表现出一种明显的协同性现象:蛋白质序列中若有二硫键形成,那么此序列中的所有CYS或者大部分CYS倾向于采取氧化状态;二硫键在蛋白质序列中的分布很不均匀,大部分二硫键都是在序列距离小于70个氨基酸的地方形成的,存在着二硫键形成的强烈偏好序列距离,如序列距离为11,6,16,5,13个氨基酸处;相对而言,二硫键更倾向于在氨基酸序列的前半段出现,这在蛋白质翻译过程中对于保证新生肽链顺利延伸合成和减少误折叠发生有着积极意义。比较氧化态CYS和还原态CYS周围的氨基酸分布情况,发现两者周围氨基酸分布有着比较明显的差异:前者周围