基因串联复制的算法分析与设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:nuclear01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因序列的系列变换,包含了复制、旋转、翻转等基本操作,这些操作导致了基因序列上基因排列顺序的变换。基因复制问题也是生物信息学中的经典问题之一,即探索不同基因序列之间的复制变换过程并计算其最少复制次数。最少复制次数就意味着通过最少的基因复制操作过程就可以完成两个相关基因序列之间的转化,这对于推断生物物种的演进和进化过程,生物的遗传性和变异以及获得相似物种间的亲源关系具有十分重要的现实科学意义。基因序列串联复制问题的研究开始于20世纪。1984年就发现,在自然语言中就存在所谓的串联复制问题:给定字符串X,从S开始使用(可以使用任意数量的)串联复制,即形式为ASB→ASSB的复制规则,其中S可以是X的任何子字符串(一个这样的运算将在新的X中生成一个重复段,即子字符串SS)。2004年Leupold等人首次提出了确定计算两个给定字符串之间串联复制距离的复杂性问题,即是否可以在多项式时间内计算串联复制距离。之后,对于无界符号集的情况,串联复制被证明是NP-hard。随之,Ferdinando Cicalese和Nicolò Pilati显着改善了这一结果,并表明对于大小小于或等于5的符号集上的字符串,串联复制距离问题已经是NP-hard。2019年Manuel Lafond等人证明串联复制问题是NP难的。本文主要研究基因组序列的后缀复制、串联复制以及串联复制下基因组排列的最小复制数的生成问题,通过设计合理的算法判断两个基因序列间的复制操作过程,完成相关算法的设计与程序验证,最终对实现的结果进行性能分析。本文的主要研究内容如下:(1)针对后缀复制问题,本文设计了一个多项式时间的删除算法。我们利用邻接、断点以及后缀复制的概念与性质可以判断序列复制后的生成情况。根据序列的生成情况和断点的数值匹配来保证每一次的删除操作是最优的。循环往复的寻找符合这种条件的断点并将其删除,最终将得到一条不存在断点的序列。通过与原序列进行比较,得到判断结果,并证明算法的正确性与最优性。(2)针对串联复制问题:在有约束的条件下,本文设计了一个利用穷举策略来进行删除的算法。通过限制某种序列段的复制,以此可以保证每次复制之后都能产生一个非零断点。通过删除算法消除序列之间的所有断点,同时通过程序来记录删除的过程和验证算法的可行性;针对串联复制得到的含有不同数量元素且包含重复的基因组序列,提出一个以贪心策略为核心的删除算法,针对不同的情况来挑选最佳位置的重复片段进行删除:根据贪心算法,每次选取当前断点数值最大的断点进行删除操作,并通过程序进行验证。(3)针对串联复制下基因组排列的最小复制数的生成问题,我们将复制数图谱(CNP)分为单峰和多峰两种。对单峰情况,给出一个在多项式时间内最佳地解决该问题的递归算法。根据给定的基因复制数图谱(CNP)选取这两端数值最小的两个数字和其所覆盖的数字段进行除法操作,递归循环,直至得到数值全为1的CNP。同时对于多峰的CNP,分析得到算法的运行次数上界。本文的主要创新点:1.发现并定义了基因序列中“断点的值”这一概念,由此设计了一个关于后缀复制问题的删除算法。证明了后缀复制的相关性质并给出了算法正确性的证明。2.通过对串联复制添加约束条件,设计并且实现一个基于穷举策略的删除算法,以此来消除序列中的所有非零断点。利用程序验证了该算法的可行性。3.设计了一个贪婪删除算法,以删除因基因段串联复制产生的重复片段信息,并通过程序进行验证。4.设计了一个在多项式时间内最佳地解决串联复制下最小复制数的生成问题的递归算法,使得CNP中所有数值变为1,并对其最优性予以证明。
其他文献
区域供热是当前中国北方主要的供热方式,在冬季供热能耗所占比重很大,而区域供热系统由于覆盖范围较广,其控制调节有一定的滞后性,而区域供热系统不合理的运行方式导致能源浪费等问题的出现。因此,准确预测区域供热系统的用户热负荷和精准调控其运行参数对整个供热系统的节能减排和优化升级起着至关重要的作用。本文选用某能源公司以燃气锅炉作为热源的三个区域供热系统作为研究对象,为用户热负荷预测及运行参数优化提供了可靠
学位
近年来,随着我国高速铁路的快速发展,人们对旅客列车准时准点的要求也在不断提高。当线路发生故障时,能够迅速、准确地查找故障位置,排除故障险情,对保证列车通行的准点率,尤为重要。目前,高速铁路牵引供电系统测距装置的测距方法有:阻抗法、吸上电流法、上下行电流比法、吸馈电流比法等。石济客专以吸上电流法为主。铁路牵引供电系统一条供电臂平均输电距离为30km,而现阶段所使用的故障测距误差范围只能达到±500m
学位
随着经济的快速发展和科技的进步,电力系统的信息化基础建设水平也在不断提升,传统的人工巡检的方式已经远远不能满足电网智能化管理水平要求,开展基于人工智能技术的输变电场景巡检具有重要的现实意义。图像描述生成技术是计算机技术领域的研究热点,输电线路、建筑工地等场景环境多变,存在很多危险因素,通过研究图像描述技术进行输变电场景的危险描述以达到预警的目的,为保障电网稳定运行提供有力的技术支撑。本文提出了一种
学位
水下无线传感器网络是打开海底世界的钥匙,在海洋污染监测、资源勘测、海底地质灾害预防和国防领域得到广泛应用。它由一组具有声波发射器的传感器节点组成,数据包以多跳的方式从海底转发到水面的船只或者中转站。路由协议决定着数据包的转发行为,是水下网络的核心。水下网络中的节点通常使用能量有限的蓄电池供能,因此如何提高水下网络的能量利用率、延长网络生存时间是设计路由协议时必须考虑的一个关键问题。经典的水下路由协
学位
随着我国社会和经济的快速稳定发展,人民的生活水平和受教育程度普遍提高,越来越多的人开始意识到健康的重要性,获得安全用药知识和用药指导已成为更多人的需求。药物治疗是最常用、最方便的治疗手段,人们往往根据自己的经验和说明书内容来选择药品,并没有完全了解和掌握各个药品的具体情况,造成不合理用药。药品说明书是载明药品信息的重要载体,是医生和病人如何用药的科学依据和指南,但市面上药品种类繁多、现代医药知识爆
学位
我国目前正处于能源结构改革和升级的关键阶段,在配电网智能化发展的过程中,明显存在着配电网通信效率低下的问题。本文围绕低效通信配电网的电压控制问题开展了相关研究:(1)提出了低效通信配电网中可量测节点的电压数据量测误差补偿方法,以及不可量测节点的电压数据估测方法。首先根据配电网通信链路状态和数据传输情况分析了低效通信配电网的具体特征;然后对低效通信配电网中电压数据量测误差和估测误差进行了优化和补偿;
学位
公路运输一直是交通运输业的主要运输方式,商用车作为公路运输的主要工具,其销量也一直在稳步上升,商用车使用量的增加势必会增加燃油的消耗,进而增加大量污染气体的排放,对环境、资源都会造成更大的压力。燃油消耗的支出也是交通运输业主要成本之一,商用车的燃油利用率若一直得不到改善,则会增加交通运输经营者的支出,降低盈利,抑制行业的发展。降低油耗既可以缓解给环境、资源造成的压力,还可以降低交通运输的成本,增添
学位
随着经济社会及计算机技术的发展,工业制造对生产力的要求越来越高,智能工业机器人在工业制造领域扮演着越来越重要的角色,在电子、机械、物流等领域都有了更广阔的应用空间,被广泛应用在智能拆垛、工件上料、货品抓取、物品定位、缺陷检测、尺寸测量等工业任务中。在这些工业任务中,对场景中的物体进行准确的感知是完成整个工业机器人任务的重要环节。同时随着3D扫描技术的发展,可以提供丰富的几何、形状和尺度信息的点云数
学位
随着十四五规划的展开,稳定的电力供应成为保障经济社会正常运转的关键一环。销钉是输电线路中用于固定螺母的器件,销钉的脱落会导致输电线路的不稳定,极易引起跳闸事故。近几年,基于深度神经网络的目标检测技术获得了飞速发展,尤其在电力运维中与无人机巡检进行结合,提高了巡检人员的巡检效率和人身安全性。因此一种基于深度神经网络的销钉缺陷检测方法对巡检人员完成销钉缺陷的巡检工作,对维护输电安全具有重要的研究意义和
学位
Apollonius图又名加权Voronoi图,是传统Voronoi图的一种扩展衍生结构。不同于传统的Voronoi图采用欧式距离来度量距离长度,Apollonius图采用欧式距离减去每个种子点本身的权值这样一个加权距离作为距离度量。Voronoi图及其众多的衍生结构(例如Power图,加权Voronoi图,质心Voronoi图和质心Power图等)在运动规划,材料科学,分子生物学,晶体学和计算机
学位