论文部分内容阅读
蛋白质是人类生命活动息息相关的生物大分子,本文从计算科学的角度研究分析蛋白质。本文主要分为两个部分:第一部分通过分析提取蛋白质的特征然后应用SVM的方法从蛋白质的一级结构出发预测蛋白质的可溶性;第二部分从统计模式分析并应用计算机软件方法,探索乙肝病毒氨基酸的变异模式。1)在机器学习中,特征作为学习数据的表示,特征选择结果的好坏直接影响着分类器的分类精度和泛化性能,因此有效的特征选择方法至关重要。支持向量机作为目前应用最广泛的机器学习模型之一,在文本分类、图像识别、生物信息学等各个方面都有重要的应用。蛋白质作为一切细胞、组织的重要成分,在生命活动中扮演着决定性的作用,蛋白质的是否可溶,决定了它是否能发挥功能,而且有一系列的疾病都是由于机体的蛋白质可溶性发生变化造成的,因此,蛋白质的可溶性的重要程度毋庸置疑。本文应用SVM的模型,根据蛋白质氨基酸的理化性质以及蛋白质的序列特征,从计算科学的角度出发,训练出蛋白质可溶性预测的模型,然后应用得到的模型预测新的蛋白质序列的可溶性。经过与前人工作的比较,我们得到分类效果较优的蛋白质可溶性特征以及预测模型。2)乙型肝炎是一种流行性广、危害严重的传染性炎症疾病,目前尚无彻底的根治方法,只能通过有效的疫苗接种来预防。本文应用统计分析的方法,研究乙型肝炎病毒蛋白质的变异数据,分析该病毒四种蛋白质中氨基酸的变异趋势,找到部分氨基酸变异的模式;然后运用模式分析软件,分析乙型肝炎病毒四个蛋白质的抗原表位,结合氨基酸的变异信息,得到变异比较活跃的抗原表位,为该病毒的抗病毒药物和疫苗设计提供有效的帮助。经过本文对乙型肝炎病毒氨基酸变异数据的整理分析。我们发现在乙型肝炎病毒四个蛋白质中,DNA聚合酶和表面蛋白的变异数量都高于另外两个蛋白质。四个蛋白质中丝氨酸、苏氨酸和丙氨酸发生的变异较多,变异成丝氨酸、苏氨酸的数目也比较多;发生变异数目最少的是色氨酸和甲硫氨酸。