无符号基因组切割再粘贴重组问题的算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:baobaolan1007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组是一组染色体的集合,染色体记录了物种的遗传信息,一条染色体由一系列基因构成,不同的基因决定着物种不同的性状。随着越来越多的基因组被测序,使得全基因组之间的比对成为可能。不同的物种从其共同的祖先那里继承了相似的基因,一些看似远亲的物种之间也发现了大规模的基因重组。人们普遍认为,将一个基因组转变为另一个基因组所需的基因组重组次数可以用来衡量两个物种之间的进化距离。基因组重组是生物进化的一种普遍模式,也是植物、哺乳动物及细菌等呈现多样性的主要原因之一。作为研究基因次序和基因家族进化的重要工具,若干基于基因组重组的数学模型被提出来,其中最常用的方法就是在最节俭的原则假设下推断重组操作序列:给定两个具有相同基因集合的基因组,计算将一个基因组转变为另一个基因组所需最少的重组操作序列。该序列的长度被称为这两个基因组之间的距离。常见的重组操作有:反转(reversal),转位(transposition)和带有反转的转位(transreversal)等。这些操作是进化过程中单染色体上经常发生的,它们有一个共同的特点,即先从染色体上断下一段,反转或不反转,然后再接入原来的染色体中。如果反转后接入的位置与断下的位置相同,则是一个反转操作;如果反转后接入的位置与断下的位置不同,则是一个带有反转的转位操作;如果不反转但是接入的位置与断下的位置不同,则是一个转位操作。鉴于此,人们提出一种一般性的操作——切割再粘贴操作来描述这些重组操作。一个切割再粘贴操作可以是一个反转操作,也可以是一个转位操作,还可以是一个带有反转的转位操作。将生物体的一条染色体或一个基因组表示为基因的一个排列,基因组重组问题就可以看做是用切割再粘贴操作对排列排序的问题:给定两个排列A和B,寻找将A变为B所需最短的切割再粘贴操作序列,这个过程中最短的操作个数称为A和B之间的距离。生物学家通过对整个基因组测序或使用比较物理图谱得到基因次序。测序提供有关基因方向的信息并且允许用有符号排列来表示基因组。但是,对整个基因组进行测序的花费较为昂贵,仍有许多有关基因次序的试验数据是基于比较物理图谱的。物理图谱常常不提供有关基因方向的信息,因而也用无符号排列来表示基因组。这就衍生出了两类组合问题:用最少的重组操作对有符号排列或无符号排列进行排序。近年来,基因组重组排序问题吸引了许多计算机科学家和生物学家的研究兴趣,出现了大量研究成果。对于反转操作,Hannenhalli和Pevzner利用断点图解决了有符号基因组的反转排序问题,他们设计了一个时间复杂度为O(n4)的多项式时间精确算法,而断点图也成为解决这一类问题的主要研究工具。目前反转距离已经能在线性时间计算出来。相比之下,无符号基因组反转排序问题则并不容易解决,该问题被证明是NP-hard问题,目前最好的近似度为1.375。对于转位操作,由于其不改变基因的方向,因而只讨论无符号基因组,目前已有若干近似度均为1.5的近似算法,该问题的复杂度仍然未知。目前最好的近似度为1.375。上面提到的都是单一的重组操作,实际的生物进化可能涉及多种重组操作,目前的研究中对有符号基因组的讨论较为充分。Gu等人给出了用转位和带有反转的转位排序的2-近似度算法。Lin和Xue给出了用反转、转位、带有反转的转位和双反转四种操作排序的1.75近似度算法。Harman和Sharan设计了一个用转位和带有反转的转位排序的1.5近似度算法。Eriksen为反转赋权值1,为转位和带有反转的转位赋权值2,设计了一个该权值下的1+ε近似度算法。但是对于无符号基因组排序问题,目前仅有一个3近似度算法和改进后的2.8386+δ近似度算法,这两个算法允许的操作都是反转和转位。Cranston等人首先研究了对无符号排列用切割再粘贴操作排序的上下界。他们证明:每个无符号线排列都可以用至多[2n/3]次切割再粘贴操作排好序。该结论可以扩展到圆排列上,但是他们的算法并没有任何的近似度保证。本文主要研究无符号基因组,主要贡献如下:(1)对于无符号基因组切割再粘贴排序问题,本文设计了针对圆排列的近似度为2.25的多项式时间近似算法。这是该问题目前能得到的具有最小近似度的算法。算法在断点图中识别出一种叫做结(tie)的结构来表示长度为5的交错路。该结构可以划分为6类,针对每一类都详细给出清除其断点的方法,使得每个切割再粘贴操作都能平均至少清除4/3个断点。由于上下界中仅涉及断点数这一个变量,避免了传统方法对无符号排列中圈分解个数的讨论,获得了较好的近似度。如果还允许另一种操作——双反转,算法同样可以用来对无符号线排列排序,并且获得相同的近似度。(2)本文修正了单元素受限的无符号排列反转排序问题的多项式时间算法。通过仔细分析反转一个规范2-带对圈数的影响,将原算法中要取反的2-带限制为一个子集;在此基础上更新了最优旋转的定义,解决了原有算法中失败的情况。(3)本文研究了用赋权的切割再粘贴操作对无符号排列排序问题,其中反转与转位/带有反转的转位赋权比为1:2。利用有符号排列的赋权距离公式,发现对于无单元素排列,反转排序问题的最优旋转同样是赋权排序问题的最优旋转,因而对单元素受限的无符号排列得到了与有符号排列相同的近似度。本文结构如下:第一章介绍若干基因组重组排序问题,包括各类问题及其子问题的基本定义、表示方法、重要结论和研究现状。第二章研究了对无符号圆排列用切割再粘贴操作重组排序问题。首先在断点图中识别出两种结构:“结”和“折”,通过研究结和折的交叉关系和具体分类,设计了近似度为2.25的多项式时间算法。本章最后给出了在增加双反转的情况下如何利用该算法对线排列排序并且获得相同的近似度。第三章修正了Hannenhalli和Pevzner对单元素受限的无符号排列反转排序问题的多项式时间算法,指出其中一种失败的情况并给出新的算法和证明。在第三章的基础上,第四章研究了无符号排列赋权排序问题,其中反转与转位/带有反转的转位赋权比为1:2。利用Eriksen关于有符号排列赋权排序问题的1+ε近似度算法和赋权距离公式,设计了针对单元素受限的无符号排列赋权排序问题的1+ε近似度算法。
其他文献
摘要:我国动画作品造型设计,都是从传统美术设计中入手。动画造型设计者设计時依据传统美术,取其精华,去其糟粕,让传统美术设计更好地服务于动画造型设计,同时给动画造型设计提供一定的发展空间,赋予动画造型设计更多的艺术感染力,提高动画造型设计的关注度,从而促进我国动画设计行业的蓬勃发展。本文将论述传统美术设计在动画造型设计中的运用。  关键词:传统美术设计;动画造型设计;应用  中图分类号:G642.4
语文的教法十分重要。优化语文教学方法应该遵守以下六点原则:一.目的性原则;二.学生主体的原则;三.因材施教的原则;四.对应性原则;五.求异创新的原则;六.处理好创新教学和传
研究了以甜玉米为原料加工浓浆饮料的生产工艺及加工方法,得出了影响甜玉米浓浆饮料品质和稳定性的因素及关键控制点。结果表明,保持甜玉米浓浆饮料稳定的最佳工艺条件为:选用
(1)食品一旦煮好应立即吃掉.食物冷却至室温后容易滋生细菌,食用在常温下存放4~5 h的煮过的食物最危险,而且存放时间越长,危险性越大.(2)食品特别是家禽、肉类和牛奶等,必须彻
为研究新课改实施过程中初中英语教师课堂教学行为状况,采用课堂教学观察表对浙江省国家级和省级新课改实验区23位英语老师课堂录像进行教学行为分析,了解其语言呈示行为、对
当今社会需要全素质人才,语文教学由于自身的特点,对学生全素质的提高有着不可低估的作用,是全素质人才培养的一个不可缺少的重要组成部分。学以致用,因而语文教法也需要一个
地球上有关生命的疑团太多。其中最令人疑惑的是有关我们的祖先如何长出腿。鱼是我们的祖先? 科学家相信,很久以前,有一条鱼登上了陆地,长出腿,开始走路,这是生命史上最重要
加拿大高等职业教育在健全和完善的招生模式、教师管理创新、学分制建议、校企合作教育机制的保障下,呈现出较高发展水平。从教育机制的角度分析加拿大高等职业教育的特色,引
在非对称逆布局模式表示模型的基础上,研究一种用于支持快速图像操作的精简的无损多值图像表示方法,称为基于可重叠矩形子模式的图像表示方法(Overlapped Rectangle-Based Im