大规模基因组中重复体识别算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:freeskykq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复体识别问题是现代生物信息学中基因组分析的一个基本研究课题。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复出现在基因组序列中,识别这些重复体对基因组解码起到了非常重要的作用。虽然现在已经存在多种算法解决重复体识别问题,但是这些算法在很多方面还不够完善。针对当前存在的问题,本文提出了一种基于种子序列的方法来求解重复体识别问题。本文提出了两个重复体识别算法RepeatSearcher和GSRSearcher,这两个算法的共同点在于都是基于对种子序列扩展的识别算法。RepeatSearcher算法的核心是对包含种子的序列通过双序列局部比对构建多序列局部比对,结合限定范围的空位罚分策略,通过比对得分值扩展调和序列,同时扩展每一个重复体序列。这种方法的优点在于在扩展调和序列的同时可以确定每一个重复体序列的精确边界。构建多序列局部比对在很大程度上防止了基于高分相似对算法的边界不精确性。GSRSearcher算法继承了算法RepeatSearcher基于种子序列扩展的特点,结合Gibbs采样统计方法,综合考虑了基因组中背景碱基对结果的影响,使识别出来的重复体家族序列更加精确。通过概率统计策略的GSRSearcher算法收敛速度明显比通过比对的算法RepeatSearcher更合理,而且可以判断出重复体序列的精确边界。本文最后使用这两个算法测试了12种哺乳动物的部分基因组序列,将实验结果和重复体数据库RepBase以及当前流行的算法RECON的结果进行了比较,结果表明:本文提出的算法在大部分情况下均优于RECON算法的结果,是一种高效的重复体识别算法。
其他文献
商空间理论是国内学者张钹院士和张玲教授在20世纪80年代提出的,现已成为粒度计算的三大模型之一。它是用一个三元组(X,T,f)描述一个所要解决的问题,其中,x表示问题的论域;T是
近年来由于在身份鉴别、视频监控和人机交互等领域的应用前景,人脸识别获得了越来越多的关注。现有的人脸识别方法主要是侧重于解决非限定条件下一对一人脸验证问题和限定或
近年来,随着三维建模技术的发展和计算机网络的扩张,可共享和复用的三维CAD模型数量急剧增长。在现有的条件下,如何对目前已有的三维CAD模型进行有效的管理和检索,如何提高三维CA
XML 已经成为了互联网上数据表示和数据交换的标准格式。随着XML 数据的日益增多,各种类型的存储方法也不断涌现,比较有代表性的有XML 专用数据库存储、面向对象数据库存储、
对软件进行自动化测试一直都是软件测试的目标。CDMA的3GBSS软件系统需要高密度的频繁测试以保证软件的质量。传统的手工测试,不但效率低下,而且准确度不高,往往还会产生冗余
随着信息时代的飞速发展,存储在数据库中的信息呈指数级增长。人们希望从存储的大量信息中发现隐藏在数据背后的,有价值的知识。在社会需求的强劲推动下,数据挖掘技术得到了飞速
地理信息的提取和识别是地理信息系统(GIS)、全球定位系统(GPS)发展的基础和迫切需要。自动矢量化因其效率、精度、自动化程度和可靠性方面的显著优势,已经成为获取地理信息的
本文主要研究了将粗糙集 (Rough Set,RS) 约简的神经网络(Neural Network)技术同基于事例推理 (Case-Based Reasoning,CBR) 技术相结合用于昆虫的识别。神经网络技术和基于事例
Web应用系统是互联网技术推广以来发展最快的一种应用系统,基于Web的应用系统已经逐渐成为计算机应用系统的主流模型。J2EE技术架构为Web应用系统提供了性能可靠、服务优良的
为了让计算机能够自动处理机务信息,我们提出了机务信息规范化的研究课题。在机务信息规范化中,自动处理自然语言形式的机务信息是至关重要的。对于一个机务信息系统来说,理