论文部分内容阅读
TAL效应物(Transcription activator-like effectors)是黄单胞菌属植物病原菌分泌的一种特殊的三型效应物,在病原菌与寄主相互作用过程中起着重要的作用。TAL效应物的靶标直接反映了病原菌的致病性或无毒性,因而寻找TAL效应物的靶标直接影响到对寄主植物感病基因、抗病基因的鉴定,并有助于揭示病原菌和寄主长时间相互作用、共同进化的过程。而生物信息研究,特别是这些效应物的靶标预测能给靶标的鉴定提供极大的便利。因此,从生物信息学的角度提出有效的TAL效应物靶标预测算法是一项非常必要而有价值的工作。本文深入研究TAL效应物的相关知识,提出了两个TAL效应物靶标预测算法,分别是TargetMinerA算法和TargetMinerB算法。其中,TargetMinerA算法只对RVD (repeat variable diresidue)结合特异性进行建模,通过构建RVD特异性概率矩阵为特定RVD序列生成RVD结合特异性位置权重矩阵,设计了一个用于给可能靶点打分的新的打分函数,并提出基于RVD结合特异性位置权重矩阵的TAL效应物靶标预测算法。TargetMinerB算法同时对RVD结合特异性和RVD效率进行建模,根据RVD效率强弱对RVD效率进行了量化,同样设计了一个给可能靶点序列打分的新的打分函数,提出基于RVD结合特异性和RVD效率位置权重矩阵的TAL效应物靶标预测算法。为评估TargetMinerA算法和TargetMinerB算法的预测性能,本文使用MATLAB并行实现了这两个算法。为了测试算法的有效性,首先把已知的TAL效应物靶点数据分为初始训练集和测试集,使用初始训练集来估计算法的参数用于对测试集中TAL效应物进行靶标预测。结果表明,提出的算法都可以预测出测试集中的已知TAL效应物靶点。同时,本文通过对已知TAL效应物-DNA互作打分的方式讨论了算法扫描阂值的确定方法,并且通过本文方法确定出来的扫描阈值可以使得靶标预测算法对已知TAL效应物-DNA互作的预测性能达到较好水平。对基因组中已知靶点的打分排名发现,本文提出的算法对已知靶点打分排名总体上略优于已有算法。为预测出可靠的候选靶标,本文将基因表达数据与算法扫描基因组输出的可能靶标结合起来进行候选靶标的预测。实验表明,本文提出的算法不仅可以预测出已知靶标,而且可以预测出新的候选靶标。此外,本文还分析讨论了候选靶点相对于转录起始位点的位置偏好。结果表明,在转录起始位点上游25bp处是候选靶点比较多的地方。