论文部分内容阅读
计算机技术和高通量生物实验技术的大力发展使得生物信息学迅猛发展,大量生物分子序列被获得。如何有效地从这些生物分子序列中提取信息,研究序列之间的关系,是揭示生命发展的重要基础。蛋白质是生命体的物质基础,细胞中的多种功能都是由蛋白质控制和调节的,因此,研究蛋白质序列很是有价值的课题。本文考虑氨基酸的理化性质信息以及每种氨基酸在序列中的相对位置信息,结合图能量理论,提出了新颖的方法将蛋白质字符序列转换成数值向量,利用MATLAB软件对蛋白质序列作相似性分析以及功能性蛋白的预测,结果证实该模型具有可行性。主要内容及创新点:(1)基于氨基酸的理化性质和20种氨基酸在蛋白质序列中的相对位置信息构建01稀疏矩阵,得到数值向量。首先根据两种重要的氨基酸理化性质的实验数据以及数值权重得到氨基酸的排列顺序。然后,根据此顺序搜索蛋白质序列得到位置稀疏矩阵。最后根据得到的稀疏矩阵画出序列的二分图,通过计算二分图的能量,将蛋白质序列转化成数值向量。(2)本文将得到的数值向量调整为概率分布向量,同时修改相对熵距离为对称的相对熵距离。然后应用对称的相对熵距离计算蛋白质序列两两间的距离得到距离矩阵,并用得到的距离矩阵构建系统发生树对结果作分析。(3)根据本文提出的蛋白质序列数值转换模型进行序列比较。为了证实提出方法的高效性和可行性,本文将该方法应用到9个物种的ND5数据集、转铁蛋白数据集、抗冻蛋白数据集和50个物种的β珠蛋白数据集上。与已有的算法比较以及与经典的比对算法Clustal W构建的蛋白质聚类树比较,实验结果几乎一致甚至更加合理。(4)在建立的蛋白质序列数值转换模型的基础上,再融合氨基酸的组分动量向量和加权的组分特征,构建一种新的蛋白质序列特征提取方式。将样本的特征向量输入到支持向量机(SVM)分类器中进行预测,并用5折交叉验证法确定模型的参数。用4个经典评价指标作预测性能评价,在抗癌多肽、过敏性肽、细菌黏附素、真核细胞毒蛋白和HIV蛋白等多个数据集上证实了该模型的预测性能非常好且具有普适性。本文提出的根据氨基酸理化性质和氨基酸相对位置特征的数值转换模型在蛋白质序列相似性分析和功能性蛋白预测方面都是非常合理有效的,该方法对药靶相互作用研究、疫苗的研发、疾病的治疗有一定的帮助。