基于语言处理技术的蛋白质结构和功能预测若干问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nuclear01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当前分子生物学技术的快速发展,蛋白质序列数据的增长速度远大于其结构和功能数据的增长,因此探索从理论预测方法认识蛋白质结构和功能变得日益紧迫和重要。  生物序列和自然语言的相似性越来越受到人们的关注,很多语言处理技术已被应用到生物信息学中。本文采用自然语言处理的相关技术包括统计语言模型、文本分类技术、机器学习方法等对蛋白质结构和功能预测的若干问题进行了深入的研究和探讨。本文研究的主要内容可分为序列处理、结构预测、功能预测三大部分,每部分具体内容如下:  I.序列处理方面研究了蛋白质序列的N元文法统计分析和基于文本分类技术的蛋白质序列同源性检测。  1)本文以基因组蛋白质序列的N元文法统计分析为起点,研究蛋白质序列和自然语言的相似性。采用氨基酸作为基本的统计单元对全基因组蛋白质序列进行N元文法分析,同时结合Zipf定律和迷惑度等方法对其语言特征进行分析,并进一步比较了随机蛋白质序列和真实蛋白质序列的N元文法分布规律。结果表明全基因组蛋白质序列中存在语言特性。  2)研究了文本分类技术在蛋白质序列同源性检测中的应用。采用向量  空间模型和支持向量机对蛋白质序列进行同源性检测,比较了不同的蛋白质序列组成成份,并提出了二进制谱这种新型序列组成成份,进一步采用潜在语义分析技术进行特征提取,从而有效地去除了特征中的噪声,提高了同源性检测任务的分类效果。  II.结构预测方面研究了蛋白质二级结构预测、蛋白质结构域边界识别、蛋白质局部结构预测和基于知识的势能函数等问题。  1)基于词典的蛋白质二级结构预测。利用模式挖掘算法构建了与物种相关的蛋白质二级结构词典,并利用该词典对蛋白质二级结构进行预测,其预测过程和语言中的分词和词性标注过程类似,在四个物种上获得了显著性预测效果。  2)结构域边界预测。针对现有方法的不足,提出了两种不同的方法对结构域边界进行预测。第一种方法提出了基于二进制谱的结构域连接区倾向性,将蛋白质序列表示为平滑的数字谱,并从中预测蛋白质的结构域边界。实验结果显示,这种序列谱水平上的倾向性在预测效果上高于所有其它已知的氨基酸水平上的倾向性。第二种方法根据DGS算法和SVM算法各自的缺点,提出了一种组合两种算法的结构域边界预测新方法。实验结果表明,组合的方法克服了各自的缺点,取得了很好的预测结果。  3)基于结构字母表的蛋白质局部结构预测。探讨了蛋白质一维结构字母的最优编码问题,针对局部最优的结构字母序列不能产生全局最优空间结构的问题,提出了两种有效的解决算法:动态规划算法和贪婪算法,可通过搜索部分折叠空间,获得近似最优解,对蛋白质结构的拟合度要高于传统的局部最优法;分析了蛋白质序列和局部结构的熵及其互信息,发现蛋白质局部结构之间存在很强的相关性,并以此为依据设计两层分类器模型预测蛋白质局部结构,其预测精度高于其它所有现存方法;针对当前局部结构预测方法的缺点,提出了一种基于框架库的蛋白质局部结构和折叠框架预测方法。该方法采用可变长度的框架代替固定长度的结构字母,并采用联合概率模型表示框架之间的关系,通过迭代方式构建框架库模型,在词网格上采用动态规划方法预测蛋白质局部结构及其折叠框架。该方法的新颖之处在于不仅能够预测蛋白质的局部结构还能预测其参与折叠的框架。  4)序列谱水平上的均值力势能。针对现有均值力势能中不包含进化信息的缺点,提出了一类基于二进制谱的均值力势能,在多个扰动结构数据集上的评估结果表明,这种序列谱水平上的均值力势能对蛋白质结构的判别能力强于传统的氨基酸水平上的均值力势能。将该势能用于基于穿线的蛋白质结构预测中,提高了序列-模板比对的准确率。  III.功能预测方面研究了蛋白质功能位点预测、相互作用预测、蛋白质柔性的表示和预测。  1)在功能位点预测方面,提出了一种基于二进制谱的结合位点倾向性,并结合氨基酸频率谱和可及表面面积等特征,采用支持向量机进行蛋白质功能位点的预测。实验结果表明,这种序列谱水平上的结合位点倾向性比传统的氨基酸结合位点倾向性能取得更好的预测效果。  2)在相互作用预测方面提出了一种基于序列组成的相互作用预测方法,蛋白质序列按其基本组成成份的出现频度被映射到高维特征空间中,并结合支持向量机进行相互作用预测,同时采用潜在语义分析技术进行特征提取,有效的过滤掉了噪声。  3)在蛋白质柔性的表示和预测方面,提出采用构象熵表示蛋白质的柔性,并通过预测局部结构的构象熵预测蛋白质的柔性。从而提供一种简单有效的蛋白质柔性的表示和预测方式。
其他文献
XML以其扩展性、结构性、平台独立性和自描述性等特性成为数据表示和交换的事实标准,越来越多的应用使用XML来存储、交换和发布信息。能否有效地存储和查询XML文档,成为一个非
企业的成功日益依赖恰当的人在恰当的时间及时地获得对企业决策至关重要的信息,获得这样的信息直接依赖于数据库的性能。而数据库的性能与数据库结构有着直接的关系,良好设计的
投资者在进行交易前需要做很多的工作,那就是投资的研究和分析。要进行投资研究和分析,首先需要获取市场交易数据,没有数据就无法进行研究和分析。本文的主要目的就是为实时交易
近年来,网络和移动通讯技术的迅猛发展使视频编码的目标从传统的面向存储转变为面向网络传输。可伸缩视频编码能够使生成的码流具备空域、时域以及质量可伸缩性,从而能够在时
随着数字化技术的不断应用,数字图像的数量不断增长,如何对其进行组织、存储、表达、查询和检索是急需解决的一个问题。基于内容的图像检索技术为解决这个问题提供了一种有益
自从Internet普及以来,越来越多的人通过Internet处理各种事务。但是随之而来的是猖獗的计算机病毒和非法入侵事件,尤其在当今以网络为主的信息时代,在明处抵挡外来攻击的防
室内移动机器人将成为未来数字化家庭和服务领域的重要一员,它不但能自主地完成清扫房间、照顾老人等家务,而且还能实现看家护院、教育与娱乐孩子、超市购物和博物馆导游等功能
在求解现实中的多目标优化问题(Multi-objectiveOptimizationPloblems, MOP)时,由于采用随机式、群体式以及智能式的搜索,多目标进化算法(Multi-objectiveEvolutionaryAlgorihm
随着金融业在中国的快速发展,社会对金融领域的信息需求日益扩大。国民迫切需要一个能够针对金融领域答疑解惑的工具。然而问答系统研究长期以来主要关注的事实类问题只占现实
近年来,对于前馈神经网络在油藏描述中的应用研究已非常广泛。在此,本文深入剖析了多层前馈网络的学习机理,总结了已取得的研究成果。同时针对基于最速下降法的BP算法存在的问题