论文部分内容阅读
单点氨基酸多态性(Single Amino Acid Polymorphism, SAP)与人类遗传性疾病密切相关,在基因药理学领域扮演着重要角色。而对于致病性SAP位点的识别可以用于考察药物效率、毒性以及代谢等方面针对特定基因群体的效果,并有助于建立针对个体病人的最优治疗方法。因此,针对致病性SAP位点的预测研究已成为了解分子水平上的致病机理的一个关键性手段,也是当前全基因组范围内研究的热点领域之一。本论文着眼于利用多种数学手段,以SAP与人类遗传疾病的相关关系作为主要研究对象,以探索致病性机理为主要研究目标,进行了一系列的生物信息学实验:首先,探索新型的序列描述符,并力图建立简洁、准确并可靠的SAP位点致病性预测模型,并将所建立的数学模型应用于实际工作当中,对全新SAP位点进行致病性预测,在节省实验成本和缩短实验周期的优势前提下,为实验验证提供强有力的理论支持和筛选后备样本集。而后,根据所建的数学模型和筛选的关键性描述符,在一定程度上提供解释SAP位点与疾病相关性机制的理论参考。接下来,我们从蛋白质翻译后修饰(Post-translational Modification, PTM)角度入手,统计分析因SAP破坏的PTM位点的致病性情况,进一步将致病机理解释深入到不同的PTM类型。最后,我们聚焦于棕榈酸化这一具体的PTM类型,考察分析棕榈酸化位点被SAP破坏以后的致病性情况,为SAP的致病性机制探讨提供了更为深入具体的参考资料。论文的第一章概述了SAP研究的背景、意义和现有数据资源,以及针对SAP疾病相关性的预测原理和方法。然后,对本论文中采用的主要研究方法和步骤进行了具体介绍。论文的第二章着眼于建立一个简洁高效的SAP与疾病相关性预测模型。我们本着要求输入简单、过程简洁、预测准确度高的原则,通过随机森林方法,建立了一个以疾病相关的氨基酸单点突变位点为识别目标的数学模型SubSeqPred。充分利用突变前后氨基酸的物理化学性质,仅利用44个蛋白序列描述符作为输入,避免了同源性和保守性等多种复杂计算,获取的模型达到了较为令人满意的效果。此后,将这一模型应用于SwissProt数据库中未分类的单点氨基酸突变位点中,为其进行了疾病相关性的注释。此外,我们根据此模型建立了全新的在线预测服务器(与模型同名为SubSeqPred),仅需输入蛋白序列和突变位点信息即可预测其疾病相关性。论文的第三章以PTM为入手点考察疾病相关SAP位点的致病性机制。我们搜索了大量数据库中实验验证的PTM数据样本,将其分别与人类疾病相关的SAP位点、癌症体细胞SAP位点以及中性SAP位点进行匹配,并对相应位点的保守性以及氨基酸突变前后的性质变化作以统计。研究结果发现,在疾病相关SAP数据中约有4.5%的氨基酸替换会通过破坏翻译后修饰而影响蛋白功能。而另一方面,约有2%的中性替换也会影响到翻译后修饰功能。这一结果表明,翻译后修饰的破坏并非人类遗传疾病的罪魁祸首。尽管如此,我们仍发现了238个修饰位点的突变会确定性的引发人体疾病以及1289个修饰位点存在于遗传疾病相关的突变的邻域范围内,这些位点信息可作为进一步致病机理研究实验的备选目标。论文的第四章在以上两个工作基础上,开展了针对棕榈酸化的破坏与SAP致病相关性的深入研究。首先我们利用蛋白序列描述符和随机森林方法建立了一个简洁有效的棕榈酸化位点识别模型,然后对所有的人类单点氨基酸突变位点进行预测识别,发现了若干疾病相关单点氨基酸突变位点被预测为棕榈酸化位点。通过查询文献,我们基本可以确认其中5个位点的致病性应与棕榈酸化的破坏有所关联,这一方面证明了我们所建模型的实用性,另一方面为这些SAP的致病机理解释提供了一个有效参考。论文的第五章和第六章分别介绍了关于数学建模研究方面的两个生物信息学工作内容,即建立了T细胞表位的预测和识别的定性模型,以及蛋白质-药物分子配体的结合能力预测研究的定量模型。这两个工作均取得了准确且可靠的预测结果,为SAP建模研究分析打下了比较坚实的数学理论基础。