论文部分内容阅读
蛋白质作为在生物的生命活动中起到重要作用的生物大分子,其结构和功能研究对生物学有着重要的意义。以往的研究发现,拥有相同进化祖先的同源蛋白质,很可能在结构和功能上也类似。所以,在现代生物信息学中,通常将已知结构和功能的蛋白质序列进行归类,然后从中寻找未知蛋白质序列的同源蛋白质来推测该序列的结构和功能信息。
在最近的研究中,支持向量机(SVM),隐马尔科夫(HMM)和神经网络(NN)等很多机器学习算法被应用于蛋白质的同源性检测研究中,并取得了很好的效果。但是这些算法仍有很多不足:第一,这些算法在检测序列相似性较低的远同源蛋白质时效果不佳;第二,检测结果缺乏清晰的生物学意义。
本文使用profile-profile比对算法对蛋白质序列进行向量化,将蛋白质序列由字符串序列转化为数值形式。之后使用改进的非负矩阵分解(NMF)算法,对profile-profile比对得到的蛋白质向量进行进一步特征提取,然后使用支持向量机(SVM)模型进行同源性判定。NMF算法的作为一种特征抽取方法,具有对原始特征进行部分表达的特性,这使得该算法在蛋白质序列分析上有很大的潜力。为了适应实际问题的需要,本文中对NMF算法进行了适当改进,降低了NMF算法对初始值的敏感性,减少了蛋白质序列中无用片段对分解结果的影响。经过实验证明,NMF算法有效的提取了蛋白质序列的关键部分,提高了蛋白质远同源判定的性能。