论文部分内容阅读
非编码RNA基因普遍存在于各类生物,主要来源于编码区基因的反义转录,长度介于50~500个核苷酸碱基的非编码RNA序列片段称为ncRNA或者是small RNA(简称sRNA),它们不直接参与蛋白质的合成,但在蛋白质的合成过程中起诸如催化的促进或抑制、蛋白质合成的调节与引导等作用。由于sRNA基因长度的不确定性、功能不明确性,并且不直接参与蛋白质的表达,在实际研究工作中,直接采用实验或者遗传的方法不易对其基因序列进行鉴定识别;本文旨在依托多样性增量判别法(以下简称ID)和贝叶斯判别法结合下的IDQD算法对原核生物中诸如大肠杆菌、沙门氏菌、志贺氏菌等细菌微生物的sRNA基因进行预测识别。 本文是根据sRNA序列的特殊性,及其上下游序列存在的相关性,首先对上述三种生物中现在已知的非编码小RNA进行统计,共搜集大肠杆菌sRNA基因序列共322条,其中79条经实验证明、247条是来源于文献预测的结果,沙门氏菌sRNA基因序列共36条,志贺氏菌sRNA基因序列共38条。鉴于沙门氏菌和志贺氏菌数据源较少,本文依实验证明的大肠杆菌79条sRNA基因的头部和尾部为基准位置,分别向前和向后截取总长度为100个碱基长度作为训练正集(此处,头部为向前70碱基、向后30碱基,尾部为向前45碱基、向后55碱基,此时实际预测的结果较好),同时,沙门氏菌和志贺氏菌正集检验集的截取原则和大肠杆菌完全一致;以大肠杆菌非编码RNA区域中取出所搜集到的全部322条sRNA基因及其上游70个碱基和下游55个碱基的序列片段,截成长度为100个碱基的基因片段(最后一段若长度不足100个碱基则反向截取这一段),并用Blastclust软件去除了相似性超过30%后的序列作为训练负集进行精度预测。通过对序列进行各类特征的研究,比较分析后在诸多特征参数中最终选定了诸如固定位点单碱基、碱基5模体、10碱基长度内的单碱基含量、次紧邻碱基2模体等特征参数,采用多样性增量法和在此下的二次判别法(以下简称IDQD)分别进行了敏感性指标、特异性指标、预测精度和相关系数的计算,为了使预测更合理,大肠杆菌采用了交叉检验的方式,沙门氏菌和志贺氏菌则采用独立检验的方式;经过对计算结果比较分析选定较好的预测方法( IDQD)和较好的特征参量组合,分别对三种生物的基因非编码区进行检索,查找出可能的非编码 RNA,并与已知的sRNA基因序列进行比较验证,其中共搜索到大肠杆菌sRNA基因序列共774条,和sRNAMap中接近度比较高的有92条,其中W链60条,C链32条;共搜索到沙门氏菌sRNA基因序列共693条,和sRNAMap中接近度比较高的有11条,其中W链7条,C链4条;共搜索到志贺氏菌sRNA基因序列共821条,和sRNAMap中接近度比较高的有20条,其中W链13条,C链7条。预测效果较好,有实际意义。 本文意义,一是在于探索原核生物sRNA基因预测的可行性方法,便于今后原核生物sRNA基因预测的方便;二是在于探索不同生物间sRNA基因特征的相关性,便于在不同生物间探索sRNA基因的结构和功能;三是在于搜索新的sRNA基因,便于对今后实验探索新的sRNA基因和对基因功能的探索;四是在于验证了sRNA基因头尾部特殊性及其与上下游序列的相关性。