机器学习方法在生物序列分析中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:czy239239
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一个新兴的跨学科研究领域,通过采用计算方法来解决分子生物学问题,最终目的是能够发现隐藏于海量生物数据中的生物模式和信息,并应用这些信息来提高对一些重要的生物运行机制的理解。生物序列分析则是生物信息学领域重要的基础性研究工作。近年来,随着生物学实验数据的爆炸式增长,机器学习方法在生物序列分析和重要信息的提取中发挥着越来越重要的作用。机器学习通过建立适当的统计模型,可以捕捉隐藏于大量实验数据中的复杂模式并基于它们做出决策。因此,机器学习方法特别适用于类似生物信息学的拥有大量数据但相应理论很不完善的领域。本文围绕机器学习方法在生物序列分析中的应用展开研究,主要做了以下工作:1、求解多序列的最优比对是一个NP问题,目前已有大量的方法和程序被开发出来用于蛋白质多序列比对。但是,这些方法大多数都是使用优化得分函数的方法获得最佳或接近最佳的比对,因此只能产生一个单一的比对结果。最近的研究工作发现,通过最优化得分函数的方法取得的最佳序列比对结果,往往并不是最具有生物学意义的比对。因此,本文提出一种基于集成学习的多蛋白质序列比对方法,将隐马尔可夫模型作为集成学习中的基分类器,在对训练集中的序列进行排序后依次与隐马尔可夫模型进行比对,根据比对结果优化模型参数,最后生成一组分数较高的比对结果。在构建集成学习系统时,提出并证明了一种双序列比对方法,可以精确计算出两个给定蛋白质序列的具有领先分数的若干个比对结果,其计算的时间复杂度为二次函数。此外,针对蛋白质二级结构信息对序列比对结果的影响,在之前模型的基础上进行改进,通过一个匹配矩阵实现蛋白质二级结构的匹配分数计算,并初步分析和探讨了引入二级结构信息对不同测试组的比对精度影响。2、针对目前基于共变模型的非编码RNA序列搜索软件计算效率低的缺点,对传统共变模型进行了改进。首先,对非编码RNA家族的成员序列与该家族的共变模型比对的结果进行了分析,结果表明在共变模型的任何状态,最优比对的子序列长度大多与一致结构的长度相差不多。据此,将RNA家族的二级结构分成若干个基本的结构单元,其中每一个结构单元代表二级结构中的一个茎或环,并为每个结构单元增加了长度限制。设计了一种结构单元的长度限制计算方法,在计算出上、下限的同时,给出相应的置信度。并根据各个结构单元的长度分布对家族中的序列在进化过程中出现插入和删除的次数进行了限定,从而显著降低了序列结构比对的计算时间。3、转录因子结合位点在基因调控中起着非常重要的作用,准确预测它们在启动子区域的位置可以有助于理解特定基因的表达水平的调节。针对转录因子结合位点的识别,已经开发出了很多的计算方法和工具,但其预测的准确度并不理想。本文提出了一种基于图论的转录因子结合位点的预测方法。通过一个无向有权图来模拟同源基因的启动子区域内的所有子序列和它们之间的关系,从而把问题转化为图的最优化问题。同时,为了提高寻找问题的最佳解决方案的速度,提出了一种预处理技术,可以显著降低图的大小。最后,设计了一种枚举算法搜索图模型中的最大边权团,最大边权团对应的子序列即为预测的转录因子结合位点。4、传统的聚类方法在用于DNA微阵列数据分析时,多数只能生成一种聚类结果,无法识别出与多组不同的基因表达模式相类似的基因。针对该问题,提出一种基于图形模型和图割算法的DNA微阵列数据聚类方法,将样本空间的整个数据集表示为一个有权图,然后迭代地求解图的最小割权值和第二小割权值,根据图割,将图分割为子图。此外,在数学上证明了图的第二最小割可以在多项式时间内算出。对高连通图的定义进行引申后,用于无向有权图中,并将高连通图的判据作为图分割的终止判据。
其他文献
2019年畜牧业发展出现较大波动年畜牧业发展出现较大波动,生猪产能大幅下滑,家禽产业快速发展,牛羊产业稳中有增增。在生猪产品价格大幅上涨的带动下,畜产品价格总体上涨,引
力帆轩朗定位为都市家用7座多功能车,轩朗座椅采用2+3+2和2+2+2两种布局,支持多种座椅调节布局方式。轩朗拥有全景夭窗、座椅通风、按摩、加热等越级配置,动力方面有1.8L、2.0L自然吸
Introduction Sneakerheads,a subculture that emerged initially from hip-hop culture in American cities,has gone global,with a large community of sneakerheads in
目的:观察配戴某品牌防蓝光镜片对健康成年人眼视功能的防护作用,以及防蓝光镜片对人眼对比敏感度的影响,了解防蓝光镜片的适用人群。方法:本实验采用自身对照研究。选取2017
1落实基本概念、原理和规律的教学基础性试题一般以日常教学中基本的问题情境为载体,考查物理学科的基本知识和方法.如2017年全国卷Ⅰ第14题考查反冲中的动量守恒问题,2018年
第二十二届长城国际心脏病学会议暨亚太心盟科学大会(r11he22nd GW-ICC&APHF2011)将于2011年10月13—16日在北京盛大呈献。
目的探讨老年手术患者中芬太尼与瑞芬太尼静脉的麻醉效果。方法70例老年手术患者随机分为观察组与对照组,分别给予瑞芬太尼和芬太尼,比较麻醉效果。结果T1、T2和.r4时,两组SBP、D
特发性大动脉炎是一种主要累及弹性动脉,如主动脉及其主要分支、肺动脉、冠状动脉等的慢性、进行性且常为闭塞性炎症,又称为大动脉炎Takaya su病、无脉症及闭塞性炎症,病因不十