论文部分内容阅读
水平基因转移(Horizontal gene transfer,HGT),又称横向基因转移(Lateral gene transfer,LGT),是指在不同的生物个体之间遗传物质的交流,即从亲代以外的个体中获得遗传物质的过程。不同的生物个体可以是同一种生物,但含有不同的遗传信息的生物个体,也可以是远缘的甚至没有亲缘关系的生物个体。已有的知识表明基因水平转移是一个重要的现象,水平基因转移相对于垂直基因转移(亲代传递给子代)来说打破了亲缘关系的界限,使基因的流动成为可能。大量的识别基因组中水平转移基因的计算方法已被提出,大多数使用参数方法预测细菌基因组中水平转移的基因,通常选取单个特征或几种特征简单地结合的方法分别对单个细菌基因组或人造基因组预测水平转移的基因。我们知道,不同的特征表征不同的基因序列编码信息,不同的基因序列可以由不同的特征进行表达,因此,不同的基因序列应该有不同的最优特征表达,且多个特征的组合应该比单个特征对基因序列的表达更加精确,不同的基因序列应该有不同的最优特征组合。因此,通过单一的特征或简单结合几个特征的方法去预测几种细菌基因组中水平转移的基因,应该会影响预测的精度和可靠性。为了解决这类问题,我们提出了一种新的组合特征方法,用以预测水平转移的基因。首先,我们选取17个经常使用且表现较好的特征,利用支持向量机模型对它们进行加权组合,以便于特征的选择,使用遗传算法对特征组合进行优化,有效提升我们的预测精度。其次,选取396个真实的细菌基因组用于预测,能够更加全面可靠地分析不同的特征在不同细菌基因组下对基因功能表达的不同影响,使得我们的结果更具说服力。本文中,我们的组合特征方法是通过支持向量机进行分类,利用遗传算法进行优化的水平转移基因预测方法,也是对参数方法的进一步研究。通过和其它预测方法的比较,我们提出的组合特征方法更加有效的提升了预测精度和降低了时间复杂度。对生物学研究者来说,使用更好更加有效的预测方法去处理实际的问题,能够节省大量的时间和不必要的开支,例如对细菌类生物和人类疾病的研究。本文方法是对大量的基因组数据进行处理,进一步的观察和分析,为原核生物的水平转移基因的预测提供参考,为生物学研究打下基础。在以后的工作中,我们会认真分析每一类细菌基因组,通过蛋白质的功能表达对其进行分类,并预测不同功能表达下蛋白质编码的水平转移的基因。