论文部分内容阅读
细菌sRNA是一类广泛存在的调控RNA,其长度在40-500nt之间。随着生物信息学预测结合实验验证方法的应用,越来越多的sRNA被发现通过结合mRNA或蛋白靶标,在细菌的诸多生理过程中发挥着重要的调控作用,如调控细胞外膜蛋白,体内铁质代谢平衡,群体感应和毒力调节等。sRNA和靶标mRNA间以不完全的碱基互补结合,依据结合区域位置的不同,sRNA在转录后水平上对靶标基因产生抑制或促进作用。此外,大部分sRNA-mRNA间相互作用都需要伴侣蛋白Hfq,它起到维持sRNA稳定性,或者协助sRNA结合靶标的作用。目前识别sRNA靶标,可运用实验方法和生物信息学预测两种方法。实验识别的优势在于可以直接证明sRNA-靶标间的相互作用,但操作复杂,劳动强度大。这些实验包括遗传学方法、亲和技术、微阵列技术和蛋白质组学等。生物信息学的优势在于可以快速、有效地为实验验证做出支持。目前的趋势是将这两者结合起来用于发现新的sRNA靶标。因此,构建一个有效的sRNA靶标预测模型十分重要。目前,国内外已知共有五个基于序列信息的靶标预测模型,其中部分模型具有较高的预测精度。尽管基于序列的靶标预测模型为实验验证sRNA靶标提供了有力支持,但仍有以下两个问题:一是对于大多数sRNA预测出的靶标数目过于庞大,使实验验证产生了一定难度;二是预测出的潜在靶标无法保证具有实际功能,因为多数基因都是条件诱导的。鉴于以上两个问题,本文开展了以下两方面的工作:首先,建立了一个经实验证实的综合性sRNA靶标数据库;其次,基于基因表达谱数据构建了一个细菌sRNA靶标预测模型sTarExp。为构建数据库,我们通过系统阅读已经发表的sRNA研究相关文献,收集了诸如结合位点和突变位点等详细信息,用PHP和Mysql语言编程构建了一个sRNA靶标数据库sRNATarBase。目前,数据库共包含了381条mRNA靶标和11条蛋白质靶标。数据库的构建不仅对sRNA功能研究起到了辅助作用,更为sRNA靶标预测研究提供了基准训练集。在构建基于基因表达谱的sRNA靶标预测模型构成中,我们仔细察看了一个综合性的sRNA数据库sRNAMap。最终从提取GEO数据库的GSE3665数据集作为表达数据的来源。根据综合GSE3665数据集和sRNATarBase两个方面信息,最终获得了一个包含64例阳性和158例阴性的训练集。从理论上讲,sRNA和真实靶标mRNA之间在表达水平上必然存在着某种密切的相互关系。为此,我们提出了称为“随机相关系数”的策略,用来从原始数据集中构建1000个新的特征。最终通过计算,训练集中的64例阳性样本和158例阴性样本各包含1000个特征。然后,使用Na?ve Bayes判别法进行样本分类,以留一法交叉有效性分类精度LOOCV (leave-one-out cross-validation)为目标函数,采用逐步优化法筛选特征变量。通过稳定性分析挑选最佳的特征组合,结果表明,当特征数为5个时稳定性指标最高,为0.7806。此时的特征分别是33,270,391,438和958。最终,将稳定性分析获得最佳的特征集合用于构建1000个分类器,并命名为sTarExp。如果一对sRNA-mRNA组合有超过500个分类器判断其为阳性时,其最终结果即为阳性。基于sTarExp的训练集的222个样本,其中23阳性样本(TP=23,FN=41)和155个阴性样本(TN=155,FP=3)得到正确预测。即模型的分类精度(Acc)、敏感性(Sn)、特异性( Sp )和阳性预测值( PPV )分别为79.28% ((TP+TN)/(TP+TN+FP+FN)),35.94% (TP/(TP+FN)),98.1% (TN/(TN+FP))和88.46% (TP/(TP+FP))。sTarExp的预测精度高于Zhang等人70.00 %的结果和TargetRNA的66.7%,但是低于本中心先前开发的sRNATargetNB的预测精度91.67%。为了说明sTarExp模型性能,我们用模型对从GSE3665数据集中提取的47个sRNA和4023个mRNA的所有组合进行预测。sTarExp的结果显示,当P值=1.00时,sRNA靶标的个数分别从5到566不等,平均每个sRNA有111个靶标;P=值0.95时,靶标个数从33到1223不等,平均311个;P值=0.50时,sRNA靶标个数在48到1860,平均为614个。为进一步提高预测效率,我们通过一个综合性策略,即整合基于基因表达谱和基于序列两种方法的预测结果预测sRNA靶标。利用本中心以前开发的基于序列的sRNA靶标预测模型sRNATarget对上述sRNA的靶标mRNA进行了预测。基于sTarExp和sRNATarget两种方法预测结果的交集表明,靶标数量明显减少。当P值=1.00时,sRNA靶标的个数为平均每个sRNA有5个靶标;P=值0.95时,靶标个数平均为20个;P值=0.50时,sRNA靶标个数平均为68个。通过计算PPV值可见,综合策略的PPV值相对于sTarExp或sRNATarget任何一个模型得到了大幅度的提高。由此可见,综合策略的确能够为实验验证sRNA靶标提供更好的支持。sTarExp模型的靶标预测结果和综合策略结果的详细信息,请见实验室网页http://ccb.bmi.ac.cn/starexp/。