基于概率模型的基因组从头测序算法研究

被引量 : 0次 | 上传用户:goodsky4008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组测序是生物信息学的核心,有着极其重要的应用价值。近些年来,新的测序技术大量涌现,与传统的Sanger方法相比,这些方法产生的read(由测序仪直接测得的DNA片段)长度更短,数量更多,覆盖率更大。然而,传统的拼接算法并不适用于利用短read进行拼接,新的拼接算法在拼接效果上仍有待提高,因此本文提出了一种全新的DNA拼接算法,即基于概率模型的基因组从头测序算法。本文首先分析三种通用的纠错方法,因为read中存在大量测序错误的碱基,这势必会降低拼接结果的准确性,所以有必要在拼接前利用纠错方法修正测序错误的碱基。本文研究的基于概率模型的基因组从头测序算法克服了原有拼接算法过度依赖碱基片段之间重叠信息的缺陷,创造性地将DNA拼接过程抽象为二阶离散马尔可夫过程,与此同时,每一条碱基片段被抽象为系统中的一个状态。算法首先构建概率模型存储系统的状态序列和全部转移概率,然后给定系统中的两个前驱状态,结合最大转移概率原则便可确定下一个最佳状态,最后用最佳状态更新前驱状态,重复上述过程,当前状态序列的长度便得到不断地扩展,当不存在最大转移概率时,便生成了一条满足一定长度要求的状态序列,即一条contig(拼接所得的一定长度的DNA片段)。重复上述过程,算法最终便可拼接出一定数量的contig。然而,在实际拼接过程中会出现无后缀、repeat以及错误高发区问题,这大大增加了DNA拼接的难度。本文采用一系列启发式规则对算法进行优化,从而解决了上述拼接难题。将基于概率模型的基因组从头测序算法对大肠杆菌序列数据的拼接结果同SOAPdenovo和Velvet方法进行比较,通过观察拼接所得到的contig的数量、总长度、最大长度、平均长度以及时间消耗等信息可知,基于概率模型的基因组从头测序算法有较好的拼接效果。
其他文献
街道是城市规划中不可或缺的一部分,它如同一张网络,将城市的各个“生命空间体”相连接,也将人们的生活紧紧联系在一起。在这里,它不仅扮演着传承城市间的文化与信息的角色,更加是
利用重力作用和密闭式引流的原理,自行设计了用于持续膀胱冲洗收集引流液的一次性持续膀胱冲洗引流装置。在临床应用2年多以来,取得良好效果,具有省时、方便、实用,减少病室
设计并实现了一种基于ARM 7的压力测试系统。整个系统由压力测试模块、ARM 7控制器模块、显示传送模块3部分组成。在压力数据信号采集完并经过调理器调理之后,送ARM处理器处
随着全球经济一体化和我国汽车工业的蓬勃发展,国内汽车市场呈现出激烈的竞争格局,受国家下乡补贴及惠民补贴政策的取消,加上全球金融危机的影响,我国的微型汽车市场购买力在2008
相山铀矿田位于赣—杭构造火山岩型铀成矿带与大王山—于山花岗岩型铀成矿带的叠合部位,北距江绍缝合带约50Km,东距鹰潭—安远大断裂约25Km,西靠德兴—遂川深大断裂,具有良好的成
目的探索为患者提供全程、全面、优质的专科疾病护理方法。方法以患者为中心,以循证护理为基础,以优质护理服务链为主线,为专科特种疾病患者制订最佳的护理服务流程和护理方
随着人们对能源环保问题的重视,余热回收受到越来越多的关注。汽车尾气余热利用对于节约能源、减少污染排放具有现实意义,其余热回收技术有着广阔的应用前景。换热器作为重卡尾
自从美国学者约瑟夫·奈提出了软实力的概念以后,学术界关于软实力的研究从未停止。目前“软实力”概念已成为国际政治理论中的一个重要概念,各国越来越重视软实力所发挥的重要
企业文化作为一门学科的兴起,引起了企业界和学术界的广泛关注和研究。根本原因是由于它给企业注入的生命活力,以及它给企业带来的有形的和无形的、经济的和社会的效益。企业