论文部分内容阅读
随着当前分子生物学技术的快速发展,蛋白质序列数据的增长速度远大于其结构和功能数据的增长,因此探索从理论预测方法认识蛋白质结构和功能变得日益紧迫和重要。 生物序列和自然语言的相似性越来越受到人们的关注,很多语言处理技术已被应用到生物信息学中。本文采用自然语言处理的相关技术包括统计语言模型、文本分类技术、机器学习方法等对蛋白质结构和功能预测的若干问题进行了深入的研究和探讨。本文研究的主要内容可分为序列处理、结构预测、功能预测三大部分,每部分具体内容如下: I.序列处理方面研究了蛋白质序列的N元文法统计分析和基于文本分类技术的蛋白质序列同源性检测。 1)本文以基因组蛋白质序列的N元文法统计分析为起点,研究蛋白质序列和自然语言的相似性。采用氨基酸作为基本的统计单元对全基因组蛋白质序列进行N元文法分析,同时结合Zipf定律和迷惑度等方法对其语言特征进行分析,并进一步比较了随机蛋白质序列和真实蛋白质序列的N元文法分布规律。结果表明全基因组蛋白质序列中存在语言特性。 2)研究了文本分类技术在蛋白质序列同源性检测中的应用。采用向量 空间模型和支持向量机对蛋白质序列进行同源性检测,比较了不同的蛋白质序列组成成份,并提出了二进制谱这种新型序列组成成份,进一步采用潜在语义分析技术进行特征提取,从而有效地去除了特征中的噪声,提高了同源性检测任务的分类效果。 II.结构预测方面研究了蛋白质二级结构预测、蛋白质结构域边界识别、蛋白质局部结构预测和基于知识的势能函数等问题。 1)基于词典的蛋白质二级结构预测。利用模式挖掘算法构建了与物种相关的蛋白质二级结构词典,并利用该词典对蛋白质二级结构进行预测,其预测过程和语言中的分词和词性标注过程类似,在四个物种上获得了显著性预测效果。 2)结构域边界预测。针对现有方法的不足,提出了两种不同的方法对结构域边界进行预测。第一种方法提出了基于二进制谱的结构域连接区倾向性,将蛋白质序列表示为平滑的数字谱,并从中预测蛋白质的结构域边界。实验结果显示,这种序列谱水平上的倾向性在预测效果上高于所有其它已知的氨基酸水平上的倾向性。第二种方法根据DGS算法和SVM算法各自的缺点,提出了一种组合两种算法的结构域边界预测新方法。实验结果表明,组合的方法克服了各自的缺点,取得了很好的预测结果。 3)基于结构字母表的蛋白质局部结构预测。探讨了蛋白质一维结构字母的最优编码问题,针对局部最优的结构字母序列不能产生全局最优空间结构的问题,提出了两种有效的解决算法:动态规划算法和贪婪算法,可通过搜索部分折叠空间,获得近似最优解,对蛋白质结构的拟合度要高于传统的局部最优法;分析了蛋白质序列和局部结构的熵及其互信息,发现蛋白质局部结构之间存在很强的相关性,并以此为依据设计两层分类器模型预测蛋白质局部结构,其预测精度高于其它所有现存方法;针对当前局部结构预测方法的缺点,提出了一种基于框架库的蛋白质局部结构和折叠框架预测方法。该方法采用可变长度的框架代替固定长度的结构字母,并采用联合概率模型表示框架之间的关系,通过迭代方式构建框架库模型,在词网格上采用动态规划方法预测蛋白质局部结构及其折叠框架。该方法的新颖之处在于不仅能够预测蛋白质的局部结构还能预测其参与折叠的框架。 4)序列谱水平上的均值力势能。针对现有均值力势能中不包含进化信息的缺点,提出了一类基于二进制谱的均值力势能,在多个扰动结构数据集上的评估结果表明,这种序列谱水平上的均值力势能对蛋白质结构的判别能力强于传统的氨基酸水平上的均值力势能。将该势能用于基于穿线的蛋白质结构预测中,提高了序列-模板比对的准确率。 III.功能预测方面研究了蛋白质功能位点预测、相互作用预测、蛋白质柔性的表示和预测。 1)在功能位点预测方面,提出了一种基于二进制谱的结合位点倾向性,并结合氨基酸频率谱和可及表面面积等特征,采用支持向量机进行蛋白质功能位点的预测。实验结果表明,这种序列谱水平上的结合位点倾向性比传统的氨基酸结合位点倾向性能取得更好的预测效果。 2)在相互作用预测方面提出了一种基于序列组成的相互作用预测方法,蛋白质序列按其基本组成成份的出现频度被映射到高维特征空间中,并结合支持向量机进行相互作用预测,同时采用潜在语义分析技术进行特征提取,有效的过滤掉了噪声。 3)在蛋白质柔性的表示和预测方面,提出采用构象熵表示蛋白质的柔性,并通过预测局部结构的构象熵预测蛋白质的柔性。从而提供一种简单有效的蛋白质柔性的表示和预测方式。