基于IPWM-IBS的TAL效应物靶标预测和搜索方法研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:kuba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TAL效应物transcription activator-like effectors(TALE)是一类在植物病原黄单胞菌中发现的天然的DNA结合蛋白,它具有与目标DNA序列特异性结合的能力。TAL效应物的靶标直接反映了病原菌的致病性或无毒性,因而寻找TAL效应物的靶标直接影响到对寄主植物感病基因、抗病基因的鉴定,并有助于揭示病原菌和寄主长时间相互作用、共同进化的过程和生物信息研究。开展TAL效应物的靶点预测研究对于细胞中的分子生物学机理的理解、TAL效应物核酸酶的设计改造都具有重要意义。本文在对现有的TAL效应物靶点预测算法研究基础上,设计新的结合位点的打分方法和基因组范围的序列搜索方法,具体的研究内容如下:(1)针对当前TAL效应物靶标预测算法的打分机制中缺少从多个角度考虑影响TAL效应物-DNA结合效率的不足,本文在位置权重矩阵算法Position Weight Matrix(PWM)的基础上设计并实现了新的RVD结合特异性位置权重矩阵的TAL效应物靶标预测算法improve Position Weight Matrix(IPWM)。本文在新算法的打分函数中除了考虑不同类型RVD-碱基对结合的贡献外,还引入TAL效应物-DNA结合的极性作用,以及RVD-碱基前后的邻接关系的影响等等。通过完善对TAL效应物-DNA结合效率的打分设计,新算法的预测性能和以前的预测工具对比得到了进一步提高。(2)以往的TAL效应物靶标搜索算法对大规模的基因组数据库进行靶标预测过程中效率不高,而大规模的基因组访问进行生物序列搜索常用的工具如Blast等,其打分机制基于序列比对且不可修改,不适用于TAL效应物的靶标搜索。为此本文在IPWM算法打分函数的基础上,为兼顾在大规模的基因组上搜索的准确性和效率,提出一种基于索引的分块搜索算法index-based block searching(IBS)。通过综合索引机制、文件I/O优化、多线程技术等,新算法在大规模组数据上的搜索效率有了进一步的提升。为评估算法性能,本文使用java语言实现IPWM算法和IPWM-IBS算法,并对预测结果和前人设计的计算工具进行对比分析。实验结果表明,本文提出的IPWM算法在进行TAL效应物靶标预测时,与经典的靶标预测工具Target Finder和TALgetter相比,召回率分别提高了约32%和16%,准确率分别提高28.8%和7.1%,马修斯系数分别提高0.17和0.085。IPWM-IBS算法继承了IPWM算法的预测结果的准确性,且计算的效率上要优于现存TAL效应物靶标预测工具。如在19.7MB、167MB和2.9GB的基因组数据上,IPWM-IBS算法相别Target Finder/TALgetter分别提升了4/1.7、9/2、15/3倍的搜索效率。
其他文献
近年来,全球经济总体快速发展,与此同时生态环境日益恶化,环境保护问题引起人们广泛的关注,各界呼吁采取实际行动保护环境,学术界也有不少相关的研究。《社会与环境:应对生态问题的实用解决方案》是其中之一,笔者选择其中的第六、七章的内容作为本翻译报告的材料。该书的作者是迈克尔·卡罗兰,每个章节介绍一个环境问题并提出相应的实用解决方案,章节内容包括:人口、交通、粮食等,探讨它们与环境之间的关系。源文文本语言
学位
二十一世纪以来,由于过度排放温室气体与砍伐森林,气候变化问题日益严峻并且形成恶性循环,由此引发的自然灾害对人类的生存与可持续发展形成了巨大的威胁。我国地理特征多样,经济发展处于转型阶段,需要更加关注气候变化灾害对可持续发展的影响。为了介绍更多国外关于应对气候变化与气候灾害的策略,本次翻译实践选取《与气候变化共存:社区如何在变化的气候中生存与繁荣》(Living with Climate Chang
学位
在早期的计算机网络,安全问题没有现在这么复杂。在网络面临的所有安全问题中,分布式拒绝服务(DDo S)攻击一直是中断服务的常见方式;并随着当前技术的进步,变得越来越复杂。例如,Mirai僵尸网络的一个特定攻击案例就是通过向被攻击的服务器发送超过600Gbps数据而破坏了它的多个服务。这种攻击得以发生不是靠一台强大的机器,而是靠感染成千上万的物联网(Io T)或其他设备而实施目标攻击。传统的安全解决
学位
目的:分析医院2016—2020年中成药用药失误分析情况,提出部分药房风险管理的对策。方法:选择2016—2020年中药药房相关管理资料进行分析,分析2016—2020年的医院中成药处方总量和用药失误发生情况、医生处方失误发生情况、收费差错发生情况、药师调配失误发生情况。结果:2016—2020年医院共查询到中成药处方数量为2 340 765张,其中共有26 613张发生用药失误,用药失误率为1.
期刊
随着Web2.0的到来,Web服务做为一种新生的软件架构模式,也越来越受到关注。然而,用户要在海量服务中检索到符合自己需求的服务是困难的。因此Web服务聚类便成了该领域的一个热门研究方向,其能促进服务发现,也有利于后续的各种工作。研究主要集中在对主题模型进行改造。然而,主题模型缺乏考虑词序关系,导致丢失上下文语义信息,并且容易造成语义鸿沟问题。再者,主题模型受预处理影响很大,这要求开发人员必须花大
学位
在云计算、分布式处理等场合,发送方通常因计算资源有限或无利益驱动,仅将数据进行加密而不压缩。云端接收到加密数据后,为了提高存储空间及带宽的利用率,需要在没有解密密钥的情况下对加密数据进行压缩。接收端则需要结合发送端提供的解密密钥和云端的压缩算法对接收到的加密压缩数据进行联合解压缩及解密。这就产生了如何有效地对加密数据进行压缩及重构的研究问题。本文侧重于研究加密图像的有损压缩与重构问题。鉴于云端无法
学位
规模化、标准化、系统化、智能化、精准化的养殖与管理方式是当前畜牧业、养殖业中最具实用性与前瞻性的发展趋势。近年来在奶牛养殖业中已经逐渐形成高度规模化、标准化的形式,但是在智能化和精准化的养殖与管理方面仍处于初步阶段,其原因在于基础任务奶牛的精准定位与识别仍处于研究阶段。传统的识别方法、电子设备方法与生物特征方法无法满足这个基础任务的需求,因此本文以奶牛牛脸图像数据为对象,采用重识别方法,构建深度学
学位
水稻是我国广大人民最主要的粮食来源之一。近年来,由于环境污染加剧,我国人均耕地面积持续减少,导致水稻产量增加放缓,如何培育优质品种水稻,挖掘水稻抗病虫害的最大潜力,提高单位面积水稻产量,成为当下水稻研究的热门领域。由于水稻表型受环境因素、遗传基因的影响,因此表型是优质水稻的重要评估指标,其中水稻穗数、谷粒饱满程度是关乎水稻产量和质量的最直接依据之一。在水稻育种研究中,稻穗生长发育的各个时期都需要测
学位
火灾不仅让人类生命财产安全遭受巨大威胁,而且对生态环境造成重大毁坏。在火灾初期,最明显且最具区分性的特征是火焰,如何通过监控视频快速检测出火焰是火灾预防中重点研究的课题。针对当前火灾检测算法的存在的问题,本文基于视频图像数据分别利用浅层机器学习和卷积神经网络对火灾检测算法做了研究,本文工作内容如下:(1)基于火灾检测算法的研究需要,本文从互联网下载整理了火灾视频图像数据,并且自行建立火焰的燃烧平台
学位
粒子群优化算法作为一种群体智能算法,因其具有参数设置简单、收敛速度快等特点,一开始便广泛应用于单目标优化领域,随后研究学者发现其应用效果显著,便将它扩展至多目标领域。虽然,经实验证明粒子群优化算法能够较好地解决多目标及高维多目标优化问题,但仍存在许多不足,并不能完全满足社会的高需求。通过文献阅读与实验论证发现,常见的粒子群算法在处理多目标问题中,主要面临以下两方面问题:(1)如何选择出领导者来引导
学位