论文部分内容阅读
疾病的发生与环境和遗传有关,目前已有大量文献报道在复杂疾病患者中发现了氨基酸变异。随着当前以个性化医学为特征的精准医学的兴起,人们对变异包括氨基酸变异所引起的功能变化及其与疾病的关系越加重视。这就要求全面深入地研究氨基酸变异对相关蛋白质结构和功能的影响。比起实验方法,基于机器学习等计算模型的生物信息学方法具有时间和经济成本上的双重优势。本文的工作主要从氨基酸变异分析方法的研究和设计、软件工具开发,以及在具体疾病中的分析应用等三方面展开。在方法研究方面,首先讨论了基于多重序列和信息论计算的氨基酸变异位点的三重保守性算法,创新性地加入了根据物理化学性质等多种不同的氨基酸分类方式。该方法不仅可以计算单个位点的保守性,还可以获得两个或三个位点间显著协同进化的关联关系。其次,研究了氨基酸变异对蛋白质结构和溶解性变化影响的预测方法。在结构稳定性变化预测模型中,引入了粗粒度的接触能变化值等结构信息,提高了预测准确性。对于预测溶解性变化这一新课题,则从全面收集文献报道数据开始,在对输入属性进行比较和筛选后,设计了一种两层的随机森林分类算法,将预测结果分为了增加、减少和无影响三类。与相关方法的盲测比较,取得了最高的性能。在软件开发方面,对三重保守性算法进行了多方面性能优化,用java语言实现了一个综合工具ProCon,包括了多重序列分析统计、保守性计算和协同进化的位点分布统计,以及在蛋白质三维结构中可视化等功能。运用Django框架和R语言实现了蛋白质溶解性变化预测的在线工具PON-Sol。该软件不仅可以批量分析氨基酸变异,还可以预测某一特定蛋白质的所有可能变异对溶解性的影响。在分析方法的应用方面,我们选择了神经退化疾病相关的氨基酸变异进行分析。首先从PubMed的1800多篇文献中收集了已报道的37种神经退化疾病相关的4600多个变异,核对后存入标准化的LOVD 3.0数据库并进行了统计分析。然后运用上述分析方法和工具,从氨基酸变异位点保守性、对蛋白质结构和溶解性影响等方面,分别具体分析了其中3个疾病相关的200多个氨基酸变异,以及33个与多个疾病关联的变异。找到了一些值得进一步研究的关键变异。本文所做的工作,对系统分析疾病相关的氨基酸变异进行了有益的探索。所提出的分析模型和算法取得了较好的预测效果。实现的软件工具、收集的数据和构建的数据库均可以供研究者访问和使用,为进一步分析和研究各类复杂疾病提供了帮助。