【摘 要】
:
功能性前噬菌体可以整合到其宿主的染色体中或以潜在的附加型DNA形式保留在内并影响宿主菌的遗传复制,该前噬菌体在细菌毒力的获取和增加中起重要作用。随着最近发布的成千上万的细菌高通量测序数据,研究人员越来越有兴趣研究前噬菌体与宿主之间相互依存的影响关系。基本任务之一是预测功能性细菌并进一步地提取宿主菌中的前噬菌体全序。但是,没有现有的工具可以从细菌基因组中识别出功能性前噬菌体。为了减少成本并避免繁琐的
论文部分内容阅读
功能性前噬菌体可以整合到其宿主的染色体中或以潜在的附加型DNA形式保留在内并影响宿主菌的遗传复制,该前噬菌体在细菌毒力的获取和增加中起重要作用。随着最近发布的成千上万的细菌高通量测序数据,研究人员越来越有兴趣研究前噬菌体与宿主之间相互依存的影响关系。基本任务之一是预测功能性细菌并进一步地提取宿主菌中的前噬菌体全序。但是,没有现有的工具可以从细菌基因组中识别出功能性前噬菌体。为了减少成本并避免繁琐的功能性前噬菌体生物学实验,基于细菌高通量测序数据的预测功能性前噬菌体的计算方法将是一种有效的替代方法。本文提出了一种算法:ProFPh D,这是第一种使用细菌高通量测序数据自动准确地预测功能性前噬菌序列的工具。同时,本文通过多线程优化提高了ProFPh D的预测和提取全序的速度以及通过整合预测的功能性前噬菌体全序来构建功能性数据库。这篇论文主要包括以下三项工作:ProFPh D:基于HTS的预测前噬菌体以及验证其功能性算法。生物诱导实验是通过丝裂霉素C(化学诱导剂)得到脱离后的功能性前噬菌体。生物诱导实验需要人工执行、判断。前噬菌体预测工具主要方法是构建蛋白质序列库,利用该序列库注释宿主菌的DNA基因片段,将呈现集合状、簇状等特征形态的基因区域视为预测区域或者将合成酶附近的约一个蛋白酶大小的基因区域视为预测区域。因此,本文设计实现了一种基于HTS技术的功能性前噬菌体预测算法:ProFPh D。主要思想是基于“滑动窗口”原理寻找严格定义前噬菌体区域的两个整合位点att L和att R。可以较准确地预测到前噬菌体区域。其次,基于改进的图形化模型寻找能够使前噬菌体首尾相连的严格匹配的reads来进一步地验证前噬菌体是否具有功能性。最后基于末端延伸算法提取完整的功能性前噬菌体基因序列。通过湿实验室实验验证了获得的功能性前噬菌体序列。在案例研究中,将ProFPh D应用于一组NCBI数据库中的HTS数据。ProFPh D从72个细菌基因组中预测到10个功能性前噬菌体。并随后对10个功能性前噬菌体进行深度测序。对比结果表明ProFPh D预测到的与生物诱导实验得到的功能性前噬菌体比照成功率为90%。并通过与现有的前噬菌体预测工具相比较,对比结果表明ProFPh D具有相同的特征和性能,而且能进一步地验证前噬菌体是否具有功能性。实现ProFPh D的多线程优化。串行化单线程的ProFPh D面对1000M的测序数据集需要消耗3-4个小时左右才能完成对前噬菌体的预测以及验证其是否具有功能性。具体来说,ProFPh D的运行时间主要消耗在预测前噬菌体区域、功能性验证以及提取其基因组全序这三个步骤上。因此,本文分别在这三个步骤上对ProFPh D进行多线程并行优化。测试结果表明,三个部分分别并行加速比高达10、7、2.4。整体加速比达到5.11。构建功能性前噬菌体全序基因库。目前研究人员只能通过查阅参考文献或者通过注释宿主菌基因组以此得到功能性前噬菌体的完整序列。但是,功能性前噬菌体的相关研究文献只有1100篇,占噬菌体相关研究文献的8%。针对这些问题,本文设计出基于自动化提取完整序列并构建功能性前噬菌体基因序列数据库并自设脚本批量下载细菌测序数据的方法。目前该方法在高性能服务器上每天能够下载约1000组测序数据,且成功在约30T约60000组细菌测序数据中预测并提取约3000个功能性前噬菌体基因序列。
其他文献
森林资源制图是森林资源调查、监测和管理的重要依据,其中树种分类是森林制图的基础。通过识别树木种类可以调查植被的空间分布、森林结构的组成及资源的动态变化。机载高光谱影像同时具备很高的空间分辨率和光谱分辨率,并且获取成本低,为树种分类提供了一种优质的数据源。随着深度学习理论的发展,研究人员将其引入到高光谱图像处理中。然而,基于深度学习的高光谱图像分类需要大量的训练样本,树种标签要通过野外勘察才能获得,
网络研讨会的诞生是为了解决传统线下研讨会存在的组织费时费力、受时空限制、参会体验差等诸多问题。网络研讨会应用软件是针对公开讲座、学术研讨等大型会议场景的一类视频会议软件,虽然解决了传统研讨会受时空地域限制等问题,但目前网络研讨会的用户体验依然存在演讲者难了解观众的状态、观众参与度较低、缺乏互动参与感等问题。目前关于网络研讨会的研究大多从技术实现原理的角度出发,有关网络研讨会用户体验及交互设计方面的
农业的发展过程面临诸多风险,自然灾害、农户疏忽都有可能给农户带来巨大经济损失,导致其陷入贫困,所以具有转移和分散农业风险功能的农业保险在缓解贫困上的重要性不言而喻。“十三五”期间,农业保险在缓解、消除贫困等工作方面取得了较好成效,“十四五”期间我国将继续推进农业保险,从保险业的角度提供缓解农民贫困、防止返贫出现的建议方案,巩固脱贫攻坚成果的同时助力乡村振兴战略发展。湖南省是我国粮食生产大省,同时也
辛弗林是一种生物碱,是枳实中的一种重要活性成分,广泛应用于医药、食品等行业,用于体重管理、运动表现和能量控制。已有多项研究表明,辛弗林在体内可通过多种机制发挥作用,包括与调节脂质和碳水化合物代谢的β-3肾上腺素受体、NMUR2s和AMP活化蛋白激酶、c AMP和Ca2+依赖机制的结合等。本研究通过16S r DNA高通量测序技术和非靶向代谢组学技术,从肠道菌群菌群及粪便代谢产物两个角度探讨辛弗林对
目前关于董事责任保险的治理效应并未取得学者们的一致认同,有关研究则表示该险种兼备“激励”和“庇护”的双面影响,那么引入该产品最终是有利于上市公司完善内部治理,进而提升投资效率,抑或是加剧董监高发生道德风险和机会主义行为的可能性,反而降低了投资效率,关于这方面的研究各个学者基于不同的视角得出的结论并不相同,还需进一步检验和分析。本文基于我国投资者维权意识的提升以及金融市场不断规范的背景下,从生命周期
近年来,智能制造以其智能性、协作性和柔性等显著优势,一步步取代传统制造业,成为了制造业发展的重点。医药制造是智能制造的重点领域,与人们的健康福祉息息相关。随着全球医药市场规模的不断增长,人们对药品的质量、生产效率和工艺等也提出了更高的要求。近些年,我国推出“中国制造2025”政策,持续深入推进医药改革,推动医药制造产业发展从机械化、电气化向自动化、智能化方向迈进。自主感知、自主决策和自主执行等高端
时变矩阵求逆问题广泛出现在现代科学研究和工程实践中,特别是自动控制和信号处理领域,时变计算问题的求解是其中的关键步骤。目前已有的求解矩阵逆的方法大多为适用于静态矩阵的数值迭代方法,在应对带有时间系数的矩阵时存在时间复杂度较高,计算的时效性较差等问题。另一方面,随着研究的深入,许多出现在信号分析、图像处理和机器人控制等工程应用中的问题可以被建模成复数时变问题,其中较为常见的就是复数时变矩阵求逆。由于
超短脉冲动力学在光子学技术应用中扮演着重要的角色,例如高阶孤子分裂、共振辐射和超连续谱的产生等。基于孤子色散波动力学的光纤光学视界的模拟引起了学者们的研究兴趣。当强度不同的两束脉冲共同传输于光纤中并发生碰撞时,强脉冲感应的折射率变化将影响探测脉冲的运动轨迹,探测脉冲被反射并经历波长转换。这种光纤中由双脉冲碰撞引起的频率转换可以理解为四波混频行为。当新频率分量与高阶孤子分裂辐射出的色散波在时域上重叠
本文基于国内某自主品牌八挡AT(Automatic Transmission)自动变速器的各项参数要求,对其电液控制系统的液压原理图进行设计,根据设计好的液压原理图搭建电液控制系统并进行仿真分析;然后在仿真分析的基础上对其各主要零部件进行了重新设计开发,并制作了相应的电液控制模块;最后,对该控制模块样件进行了台架试验验证。具体工作内容如下:(1)详细介绍八挡AT自动变速器的结构组成及其工作原理,根
近年来,随着深度学习相关技术的快速发展,尤其是编码器-解码器框架的成功应用极大地提升了图像语义描述的性能。然而,现有模型的高性能主要依赖于标注数据的类别和风格,一旦迁移到不同的场景下,性能往往急剧下降。虽然以对抗学习、双流学习为代表的跨域图像语义描述技术通过缩小源域与目标域之间的差异,在一定程度上解决了图像语义描述的迁移学习问题,但其性能仍不能令人满意,主要原因如下:首先,现有的方法主要关注于缩小