生物序列比对近似算法及其并行化研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:guizi663
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门综合数学、计算机科学和生物学等学科的交叉学科,是当今科学的研究热点之一。生物序列比对是生物信息学中的一个基本的、重要的研究问题,是生物信息学的基础,它是进行系统进化、生态学、生物保护、疾病控制、病毒起源甚至HIV病毒统计和传播等方面研究的基本工具,并可用来预测生物序列的功能、结构和进化过程等。所以,进行生物序列比对研究具有重要的理论意义和应用价值。 生物序列比对可分为双生物序列比对和多生物序列比对。本文在分析生物序列本身的固有特性和常用生物序列比对算法的基础上,对生物序列比对问题进行了学习和研究,主要研究内容包括:(1)基于结构信息预处理的双生物序列比对算法用于解决双生物序列比对的常用算法基本上都是用动态规划的方法来逐点计算双生物序列问的代价,这些方法可以发现数学意义上具有最大计分值的比对结果,但这种比对结果有时可能忽略了生物序列中所隐含的结构信息。为了在双序列比对中更好地考虑生物序列的结构信息,本文利用可变长马尔可夫链方法来预测生物序列中所隐含的结构信息,然后再进行双生物序列的比对,最后给出了一个对经典双生物序列比对的Smith-Waterman算法的修正算法以及一个基于结构信息的启发式算法。实验结果表明,这可以有效地提高序列比对的准确性。 (2)基于结构信息的多生物序列比对启发式算法多生物序列比对是生物序列比对研究中的重点。目前,国际上常用的多序列比对算法一般都是采用渐进比对和迭代比对的方法来设计的,这些多序列比对算法都有其不同的优缺点,尤其是在序列间一致性比较低的情况下多序列比对结果的可信度不高。本文在分析生物序列特征的基础上,利用可变长马尔可夫链方法来识别多生物序列中的结构信息,并在此基础上,研究了一个聚类的多序列比对算法。实验结果表明,这个算法可以较好的对亲缘性比较差的生物序列进行比对,并且可以发现生物序列问业已清楚的结构信息。 (3)一种基于熵的多生物序列比对自适应遗传算法生物序列比对问题最大的障碍在于现在还很难找到一种把生物序列的进化过程进行合理形式化的数学方法,而遗传算法能避开问题本身的数学复杂性,基本不用搜索空间的知识或其它辅助信息来求解问题。所以本文研究用遗传算法来解决多序列比对问题,并且引入信息论中熵的概念来评价生物序列比对过程中种群的多样性,提出了一种能综合考虑生物序列间相似性和结构信息的适应度函数,用比对过程中熵的动态变化来自动调整遗传算法的交叉和变异概率,并且结合动态规划算法来设计遗传操作算子。实验结果表明,这个算法具有较强的全局搜索能力和局部搜索能力,并且能有效地克服未成熟收敛问题。 (4)生物序列比对并行算法的研究随着生物技术的进步和基因组测序的相继完成,多序列比对问题的计算规模急剧扩展,现有的一些串行算法已经很难跟上序列规模增大的要求。在实际多序列比对应用中,人们必须要考虑能否将已有的串行算法并行化,或是设计符合实际需要的并行算法,从而大大降低算法运行时间。本文首先介绍了并行算法的一些基本计算模型、双序列比对中常用的并行算法以及在CellMatrixTM结构上的并行算法,然后在研究多序列比对已有并行算法的基础上,提出了一个在SMPClusters(SMP集群)上的新的序列搜索并行算法。 本文的贡献与创新之处主要有:(1)在生物序列比对中结合了生物序列结构信息,利用可变长马尔可夫链的方法来预测生物序列间的结构信息,提出了一种新的双序列比对计分机制,并且把这种思想扩展到多序列比对上,提出了一种基于聚类方法的多序列比对方法。 (2)利用遗传算法来进行多序列比对问题的研究,引入信息论中熵的概念来评价生物序列比对过程中种群的多样性,提出了一种综合考虑生物序列间相似性和结构信息的适应度函数,用比对过程中熵的动态变化来自动调整遗传算法的交叉和变异概率。 (3)在基于二分竞赛树和并行k-选择方法的基础上,充分利用SMPClusters模型具有良好扩展性的特点,提出在此模型上的求解(K,1)序列搜索问题的并行算法。
其他文献
作为在internet上信息表示,传输和存储的标准,XML在web上得到越来越广泛的应用。现在越来越多的数据交换技术转向了使用XML格式,而XML.文件变得更完善,对这些文件的分析和统计就变
关键词检测是一种特殊的语音识别任务,旨在从连续的话音中检测出由具体应用所决定的特定词,它在许多领域内都有着良好的应用前景,也是一种备受关注的研究方向,国内国外的很多学者
办公自动化(OfficeAutomation,OA)系统的业务流程复杂多变,随着信息化技术的迅速发展以及当前各方面的新需求,工作流(Workflow)技术在OA系统中占据了越来越重要的地位。在构建OA
基于位置的服务(location-based services,LBS)设备及其相关技术的快速普及应用,使得隐私泄露(privacy disclosure)问题逐渐受到关注,同时,位置数据的收集与分析、挖掘也使得轨迹隐
随着智能型移动设备的蓬勃发展,攻击者的兴趣逐渐从传统平台转移到了以Android为主的移动平台上。Android使用沙箱模型来实现应用程序之间的权限分离,在系统底层,仍然是Linux自
本文对软件开发方法和过程进行了探索性的研究工作,结合软件基础技术平台和业务基础软件平台的作用,提出了基于业务基础软件平台的软件自动生成技术研究课题。 本课题研
近年来,电信网的通信能力迅速增强,业务需求趋于多样化。为在日益激烈的市场竞争中取得优势,获得更高的收益,运营商必须提供更丰富的业务来吸引住用户,并努力提高网络利用率。为此
二维张量场图像处理算法是当今图像处理研究领域的热点之一,该算法在常规的图像处理中有非常突出的表现,然而本算法在国内图像处理领域尚未有系统的理论研究及其算法实现。
下一代网络是一种开放的网络体系架构。在这种体系结构中,用户的接入、信息/数据的传送、呼叫控制以及业务等以分层的形式实现了分离,从而使下一代网络中新的增值业务能够使用更
CMIN02系统是东信北邮信息技术有限公司推出的符合ETSI GSM CAMEL标准和中国移动通信集团公司CAMEL规范的移动智能网系统,目前已经在我国取得了大规模商用。CMIN02-SCP(Servic