基于移动元件的基因组岛识别算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:lu471085958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组岛作为水平基因转移过程中重要的载体,能够通过转化、转导等多种方式进入到新宿主基因组中。基因组岛与宿主基因组有异质性,常携带多种与生物进化相关的功能性基因。随着基因组岛的迁移,促进不同物种间的协同进化,这对微生物功能与进化研究具有重大的意义。现有基因组岛识别算法通过衡量序列组分之间的差异,或通过比较基因组方法识别候选基因组岛,忽略了移动元件的作用。本文针对上述问题,在现有基因组岛预测方法的基础上,提出了基于移动元件的基因组岛识别策略,关联分析了识别策略与预测方法的依赖关系,为各类识别算法提出了优化识别策略。具体工作如下:1.简单综述了有关基因组岛的数据库和移动元件数据库,系统的整理了插入序列、整合结合性元件、整合子、转座子和噬菌体五种移动元件数据库的数据。2.详细介绍了各类基因组岛的预测方法,按照输入数据的类型,将其分成两类展开实验,获得每种识别方法的预测结果,并讨论了每种方法的优缺点,为后续的识别策略设计提供了理论基础和方法依据。3.提出了一种基于序列组分和移动元件的基因组岛识别算法。在基于序列组分的识别算法基础上,通过整合插入序列、整合子、转座子、整合结合元件、噬菌体五种移动元件,设计过滤与增加识别策略,实现了基因组岛的二次识别。在S.enterica Typhi CT18菌株实验中,二次识别算法可以帮助除Alien Hunter外的识别算法提高15%以上的精确度;在GIs/non-GIs数据集上,二次识别算法使召回率提高20%以上,准确率达到82%以上;在L-data数据集上,二次识别算法的TPR值均提高10%以上。可见,通过滑动窗口增加包含ICE和噬菌体作用元件的片段,可以提高所有基于序列组分预测方法的效率。同时,本文又针对每种预测算法找到了最佳二次识别策略。4.提出了一种基于比较基因组学和移动元件的基因组岛识别算法。设计滑动窗口计算组分矢量,根据物种间距离确定参考基因组;通过Mauve工具确定保守区域,引入移动元件辅助预测,构建了基因组岛的二次识别算法。通过四组实验发现,二次识别算法在沙门氏菌数据集的precision要比比较基因组学高出45%,错误率降低46%;在L-data数据实验中,二次识别算法在TPR、MCC和F1值上比比较基因组学方法提升了10%以上。可见,筛选掉不包含ICE的基因组岛,再结合挑选包含ICE和噬菌体的候选基因组岛片段,能提高比较基因组学的识别算法效率。
其他文献
目的肺癌仍旧是世界上发病率和死亡率最高的恶性肿瘤之一,并且是全球面临的主要公共卫生问题。针对肺癌早期发现,早期诊断,早期治疗可以显著提高肺癌患者生存时间和生存质量
如果说小说是来自于现实生活的精神产物,那么随着现实生活的不断变化,小说所呈现出来的宏阔现实社会样态也在不断地发生着变化。本文从社会现实问题出发,以在审美立场上秉持现实主义道路的《当代》作为主要研究对象,关注发表在《当代》上具有现实关照意义的小说文本中体现出的新世纪个体伦理特色。按照这个逻辑,本文首先在第一部分讨论《当代》杂志的文学生产机制与个体伦理转向时,针对《当代》杂志从创办时期以来表现出来的具
背景及目的非小细胞肺癌(NSCLC)中表皮生长因子(EGFR)的发现及酪氨酸激酶抑制剂(TKI)的应用使EGFR敏感突变晚期NSCLC患者的生存和预后与传统化疗相比得到了显著改善。既往研究提示EGFR-TKI单药靶向治疗21外显子L858R突变(L858R)的疗效劣于19外显子缺失突变(19Del),而近期新公布的研究结果如靶向药物剂量加倍、联合抗血管生成药物或化疗等则为临床提供了新的治疗思路。本
目的细胞外信号调节激酶2(Extracellular signal regulated kinase,ERK2)和眼缺失基因3(eyes absent,EYA3)与恶性肿瘤的发生发展密切相关,但其调控视网膜母细胞瘤发生发展的
耐药菌株的出现使许多疾病的治疗难度增大,给人与动物健康构成严重威胁,这使得寻求新的安全、有效、不产生耐药性的抗菌物质,作为抗生素替代药物,变的尤为重要。溶葡球菌酶能
众筹是互联网金融的一种,股权众筹属于众筹中的一种,其是通过互联网众筹平台,由融资人发起的融资行为以吸引投资人进行投资的一种融资方式。股权众筹在进入我国之初所受争议
党的十八大以来,随着我国国企改革的稳步推进,许多国有企业在改革发展及企业产业转型升级的过程中都不免遇到一些问题,如安全事故频发、成本管控不力等,面对这些困难挑战,部分国有企业依然沿用粗放传统的管理思维模式对问题进行处理,往往在付出大量时间、资金和劳动力成本后却收效甚微。然而面对同样的问题,部分国外的先进企业如东芝、通用等企业却发展依然平稳,甚至有的企业取得了不俗的经营业绩。这些成功企业之所以成功的
血吸虫病是一种危害严重的人畜共患寄生虫病,感染人体的血吸虫主要包括三种:埃及血吸虫、曼氏血吸虫和日本血吸虫,其中日本血吸虫病主要分布在中国、印度和菲律宾。虽然在过去几十年的努力下,我国血吸虫病已经得到良好的控制,但由于环境和社会经济因素,该病仍然没有被彻底消灭。血吸虫是雌雄异体,雌雄虫体之间的持续配对会促进雌虫的成熟和产卵,所产虫卵不仅会造成人和哺乳动物的病理性症状,也会引起疾病的再传播。各类信号
南印度洋庞大的厄加勒斯洋流系统,实现了热带印度洋与南大西洋的水体交换。厄加勒斯回流强弱的波动与印尼穿越流有关。由于浮游有孔虫对环境因子变化十分灵敏,有孔虫组合特征
Argo计划推出的目的是快速获得大范围海域内的海洋实时观测数据,不断完善海洋数据资料,为海洋研究提供数据支持。但Argo浮标的投放比较稀疏,并且在不同海域内分布不均匀,现有的观测数据不能保证实际工程和研究的需要。因此研究海水中的声速,预测不同位置处的声速剖面,探索建立海域内的三维声速场的方法,对海洋领域的研究有着重大意义。现阶段实现区域内任意处声速剖面的预测研究还是处于初期。建设“21世纪海上丝绸