蛋白质同源检测中的算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gongzi8886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从人类基因组计划实施以来,各种类型的生物数据每年都呈指数级的增长,这样海量的数据需要从中挖掘出有用的知识来帮助人们进一步解释生命现象。生物信息学就是这样一门应运而生的学科。生物信息学中出现的大规模数据给常规的计算机算法提出了挑战。由于生物系统本质上的复杂性及人们对分子层面上生命组织理论的缺乏,传统的算法越来越不适应和解决生物信息学中出现的问题。基于数据的机器学习是现代信息技术的重要研究内容,机器学习的目的是期望能从数据中自动地获得相应的理论,其主要任务是从有限的观测样本数据中寻找出应用经典理论难以推导出的规律性的东西,进而将这种规律扩展到研究对象的全局,并对事物的发展进行预测和推理。因此,机器学习方法形成了与常规方法互补的可行的方法。机器学习使得利用计算机从海量的生物信息中提取有用知识并发现知识成为可能。因而,生物信息学与机器学习相结合也就成了必然。 蛋白质同源检测是生物信息学中的一个分支,是指利用蛋白质序列间的同源性将新测定的蛋白质序列分类到已知结构和功能的蛋白质家族中去,利用已知蛋白质家族的结构和功能来预测新测定蛋白质的结构和功能。近年来,出现了很多新的蛋白质同源检测的方法和算法,并取得了一定的成功。尽管如此,跟任何新的技术一样,现有的蛋白质同源检测方法还有很多不足,尤其是在蛋白质序列之间的相似性很低的情况下(也就是远程同源检测),现有方法的表现不是很令人满意。本文正是以此为出发点,针对蛋白质同源检测,尤其是远程同源检测问题进行了研究,并结合机器学习提出了相应的新算法。本文的工作主要包括以下几个方面: 1)提出了一种基于马尔科夫随机场的双序列比对算法。马尔科夫随机场(MarkovRandomField,简称为MRF)理论是模式识别中用于计算局部统计相关的一种理论。利用MRF理论,本文提出了一种新的马尔科夫双蛋白质序列比对算法(Markovpairwiseproteinsequencealignment,MPPSA)。由于该方法考虑了相邻氨基酸之间的局部相互作用,所以取得了较好的效果。 2)提出了一种混合GA/SVM蛋白质同源检测方法。本文描述了一种基于蛋白质组成和模体(motif)的混合GA/SVM蛋白质同源检测方法。首先,利用motif和蛋白质组成,每条蛋白质序列被转换成一个固定维数的向量。然后,我们将向量利用主分量分析(PrincipalComponentAnalysis,PCA)投影到低维空间中。这样,每个向量就由这些向量的协方差矩阵的本征向量的组合来描述。接着,通过遗传算法(GeneticAlgorithm,GA)从特征空间中提取具有生物意义的特征子集。同时,遗传算法还优化了支持向量机的调节参数。最后,基于所选择的特征子集和优化后的调节参数,支持向量机将蛋白质序列分类到相应的家族中去。与现有的方法,比如PSIBLAST和SVM-pairwise相比,我们提出的算法具有较好的性能。 3)提出了一种基于亲水模块的蛋白质同源检测方法。亲水性是蛋白质的一种重要的物理化学性质。本文根据氨基酸的亲水性强弱将其划分为不同的亲水模块。首先,利用蛋白质序列中亲水模块的出现频率,每条蛋白质序列被转换为一个特征向量。利用所生成的特征向量,支持向量机将蛋白质序列分类到已知蛋白质家族中去。与现有的方法相比,我们所提出的算法能更好的识别属于同一家族的蛋白质序列。 4)构造了一种具有动态学习率的蛋白质序列混合模型聚类算法。在本文中,蛋白质序列所生成的向量可以看作是由某个未知的混合概率密度函数所生成的。最近提出的RPEM算法能同时在学习过程中自动确定混合数目和估计模型参数。但是,RPEM算法的性能对学习率的选择非常敏感,如果学习率选择不当的话,RPEM算法的性能就会很差。因此,本文提出了一种能在学习过程中动态调整学习率的RPEM-DLR算法。在给定初始学习率的情况下,该算法能自动在学习过程中调节学习率,加快了算法的收敛速度,提高了算法性能。本文利用实际的蛋白质序列数据验证了算法的可行性。
其他文献
【摘要】教师、学生、教学内容、课堂环境等四个方面的因素,都对初中数学课堂教学的有效性产生或多或少的影响,初中数学教师在教学过程中都应予以关注。  【关键词】初中数学 教学有效性 影响因素   【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(2015)05-0168-01  分析整个初中数学课堂,相关因素可以分为四大要素:数学教师、学生、教学内容、课堂环境。四个因素相
【摘要】一直以来函数的教育价值都是高中数学的一项侧重点。近年来,基础教育课程革新在国内已陆续开展。而文章将以高中函数教学实践的若干问题思考作为切入点,予以深入的探究,相关内容如下所述。  【关键词】高中 函数教学 实践 思考  【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(2015)05-0166-01  1.现阶段高中函数教学所存在的弊病  与常规教材相对比,高中
本省连作晚稻,一般在大暑前后插秧,处暑边拔节,秋分前后齐穗,立冬前后成熟。在这100—120来天的本田生育期间,“水”是保证连作晚稻健壮生育、获得丰产的重要物质基础。缺水
一九五八年全国棉花品种区域试验在农业部领导下继续举行,仍分特早熟、早熟、黄河流域、长江流域、西北内陆和华南六大棉区布置试验,试验地点分布二十三个省、市、自治区,共
【摘要】随着信息技术的飞速发展,以计算机为中心的多媒体技术在教学领域的应用越来越广泛。其他学科的整合研究在我校以普遍展开,我们可以运用多媒体系统开发工具软件等进行多媒体课件和软件设计,在教学中运用自制的课件进行教学,那生动的画面、直观动态的演示效果,把学生带进了一个五彩的境界,创造出一种生动有趣的学习氛围,为学生的学习和发展提供丰富多彩的教育环境和有力的学习工具。  【关键词】小学数学 多媒体 趣
通过对当前中国设计发展时代背景的分析,深入阐述了在设计教学中培养学生的民族文化意识的重要性,旨在强调民族文化对中国艺术设计的重要性,并引起设计教学工作者对民族文化
随着大功率开关器件、数字专用集成电路的问世,以及控制理论的不断进步,交流伺服控制系统得到了飞速的发展,其中永磁同步电动机的控制理论与应用研究已经成为了交流伺服控制系统研究的重点,如今,全数字化是伺服系统,特别是交流伺服系统的重要发展方向之一。本文以永磁交流同步电动机作为研究对象,在深入分析永磁交流电动机的数学模型、交流伺服原理和空间电压矢量的控制规律,并借鉴国内外相关研究成果的基础上,以TI公司的
版画是绘画艺术的一个重要门类。版画运用媒材的手法,通常使人们认为版画是间接性的艺术,版画的这一特殊性,令版画虽然具有绘画的性质,但是不能像绘画一般,直接用笔或颜料把
在石油勘探、地质勘查中,需要用到很多精密的电子仪器,其中测斜仪对测量钻孔的轨迹参数,如井斜角、方位角以及工具面角等起着关键作用。为了进一步提高测斜仪的精度以及抗干扰性
本论文介绍了基于DSP56311集成智能控制策略在环境试验箱系统中的设计与实现,该控制系统采用了全数字化的温度,湿度智能检测与控制,实现了宽范围测量,高精度控制,以及系统的