生物信息学中的基序发现问题算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:geniuscaobo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从生物序列中发现基序是生物信息学中一个的热点研究问题,也是生物学中理解基因调控的最重要的基础计算问题之一。随着生物技术的迅速发展,人们不断地对最初的基序发现问题的计算模型进行改进,并针对不同的计算模型提出了许多求解基序发现问题的算法。 本文首先对已有的各类基序发现问题算法进行综述,详细介绍基序发现问题算法中基序模型表示方式、计分模型和评价指标等相关内容,分析三类经典基序发现问题算法的基本思想和特点。本文选取九个经典的求解植入基序问题(PMP)的(l,e)问题的算法进行标准测试,并分析测试结果的综合性能。 在研究中发现,扩展的基序问题(EMP)中的(l,e)-(20-16)问题是目前生物学家十分关注的基序发现问题。针对这个具体的问题,本文提出了一种基于彩色编码技术的样本驱动(SD)搜索算法——彩色编码基序发现算法(Color Coding Motif Finding Algorithm,CCMF算法)。它利用彩色编码技术将(l,e)-(20-16)问题转化为序列条数t=16的(l,e)问题(记作(l,e)-(16-16)问题),再采用分治算法和分支定界法来求解(l,e)-(16-16)问题。在解决将(l,e)-(20-16)问题转化为(l,e)-(16-16)问题时,CCMF算法利用彩色编码技术将4845个组合降低到403个着色,将能极大减少用分治算法和分支定界法求解(l,e)-(16-16)问题的次数,从而明显提高整个算法的运行效率。测试结果表明,CCMF算法能快速发现所有(l,e)-(20-16)的基序模型,具有优于其他算法的综合性能评价,能够用于真实的基序发现问题。 本文最后对基序发现问题算法研究工作进行了总结,并阐述了将来对生物计算中相关问题进一步研究的一些工作。
其他文献
工作流管理技术是实现企业业务过程重组、过程管理和过程自动化的核心技术,是实现先进制造战略的客观需求。工作流建模就是将实际的经营过程描述成计算机可处理的形式化表示,
一般的电子资料搜索模式为:为查找某一资料,用户可能需要到不同站点(比如各个图书馆,出版商),不同搜索引擎上搜索与某一资料相关的所有资料,而各个站点提供给用户的服务可能是不一
存储技术与计算技术及网络技术之间的不平衡发展,使计算机系统中的存储环节日益显得薄弱,存储“瓶颈”日渐突出。尽管通过提高存储系统总线带宽、优化存储请求调度策略和增加数
项目调度问题广泛存在于建筑、工业生产、软件开发、云计算等不同行业,有效调度是提高项目效率、降低代价的重要手段。  本文考虑带资源可用性代价和截止期约束,最小化资源可
语义Web是当前Web的扩展,它为Web信息附加计算机可理解的语义,实现Web数据处理的智能化。描述逻辑被视为语义Web的主要逻辑基础,它赋予Web信息以形式化的语义。随着语义Web的发
“能够随时随地利用计算机解决各种问题”,一直是人们长久以来的愿望。移动计算技术和开放系统技术的提出和发展使得这一愿望逐步得以实现。随着计算机技术向“便携化、普适化
学位
随着市场竞争的日益加剧,为了缩短产品开发周期、降低开发费用,产品设计正由传统的串行式过程向并行、协同的过程发展。分布式协同设计(DCD)是20世纪90年代发展起来的产品设
随着W曲数据的快速增长,人们希望快速而准确的找到自己感兴趣的信息,同时网站也希望针对不同用户的兴趣推荐不同信息,从而提高用户的使用体验,这些促使了个性化推荐系统的产生。
网格计算是伴随着互联网技术而迅速发展和逐渐成熟起来的,这给数据网格提供了基本的框架体系。但通用的网格技术又远远不能满足数据网格的需求,因为大量数据需要及时查询与处理
本文主要设计基于软件实现N模冗余(NMR)计算机系统的表决器结构,软件冗余对于高性能、关键计算机系统来说是一种具有成本效益的方案。由于选择数据的大数量和随机性,软件冗余