基于基因表达谱的细菌sRNA靶标预测研究

被引量 : 0次 | 上传用户:suixin2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细菌sRNA是一类广泛存在的调控RNA,其长度在40-500nt之间。随着生物信息学预测结合实验验证方法的应用,越来越多的sRNA被发现通过结合mRNA或蛋白靶标,在细菌的诸多生理过程中发挥着重要的调控作用,如调控细胞外膜蛋白,体内铁质代谢平衡,群体感应和毒力调节等。sRNA和靶标mRNA间以不完全的碱基互补结合,依据结合区域位置的不同,sRNA在转录后水平上对靶标基因产生抑制或促进作用。此外,大部分sRNA-mRNA间相互作用都需要伴侣蛋白Hfq,它起到维持sRNA稳定性,或者协助sRNA结合靶标的作用。目前识别sRNA靶标,可运用实验方法和生物信息学预测两种方法。实验识别的优势在于可以直接证明sRNA-靶标间的相互作用,但操作复杂,劳动强度大。这些实验包括遗传学方法、亲和技术、微阵列技术和蛋白质组学等。生物信息学的优势在于可以快速、有效地为实验验证做出支持。目前的趋势是将这两者结合起来用于发现新的sRNA靶标。因此,构建一个有效的sRNA靶标预测模型十分重要。目前,国内外已知共有五个基于序列信息的靶标预测模型,其中部分模型具有较高的预测精度。尽管基于序列的靶标预测模型为实验验证sRNA靶标提供了有力支持,但仍有以下两个问题:一是对于大多数sRNA预测出的靶标数目过于庞大,使实验验证产生了一定难度;二是预测出的潜在靶标无法保证具有实际功能,因为多数基因都是条件诱导的。鉴于以上两个问题,本文开展了以下两方面的工作:首先,建立了一个经实验证实的综合性sRNA靶标数据库;其次,基于基因表达谱数据构建了一个细菌sRNA靶标预测模型sTarExp。为构建数据库,我们通过系统阅读已经发表的sRNA研究相关文献,收集了诸如结合位点和突变位点等详细信息,用PHP和Mysql语言编程构建了一个sRNA靶标数据库sRNATarBase。目前,数据库共包含了381条mRNA靶标和11条蛋白质靶标。数据库的构建不仅对sRNA功能研究起到了辅助作用,更为sRNA靶标预测研究提供了基准训练集。在构建基于基因表达谱的sRNA靶标预测模型构成中,我们仔细察看了一个综合性的sRNA数据库sRNAMap。最终从提取GEO数据库的GSE3665数据集作为表达数据的来源。根据综合GSE3665数据集和sRNATarBase两个方面信息,最终获得了一个包含64例阳性和158例阴性的训练集。从理论上讲,sRNA和真实靶标mRNA之间在表达水平上必然存在着某种密切的相互关系。为此,我们提出了称为“随机相关系数”的策略,用来从原始数据集中构建1000个新的特征。最终通过计算,训练集中的64例阳性样本和158例阴性样本各包含1000个特征。然后,使用Na?ve Bayes判别法进行样本分类,以留一法交叉有效性分类精度LOOCV (leave-one-out cross-validation)为目标函数,采用逐步优化法筛选特征变量。通过稳定性分析挑选最佳的特征组合,结果表明,当特征数为5个时稳定性指标最高,为0.7806。此时的特征分别是33,270,391,438和958。最终,将稳定性分析获得最佳的特征集合用于构建1000个分类器,并命名为sTarExp。如果一对sRNA-mRNA组合有超过500个分类器判断其为阳性时,其最终结果即为阳性。基于sTarExp的训练集的222个样本,其中23阳性样本(TP=23,FN=41)和155个阴性样本(TN=155,FP=3)得到正确预测。即模型的分类精度(Acc)、敏感性(Sn)、特异性( Sp )和阳性预测值( PPV )分别为79.28% ((TP+TN)/(TP+TN+FP+FN)),35.94% (TP/(TP+FN)),98.1% (TN/(TN+FP))和88.46% (TP/(TP+FP))。sTarExp的预测精度高于Zhang等人70.00 %的结果和TargetRNA的66.7%,但是低于本中心先前开发的sRNATargetNB的预测精度91.67%。为了说明sTarExp模型性能,我们用模型对从GSE3665数据集中提取的47个sRNA和4023个mRNA的所有组合进行预测。sTarExp的结果显示,当P值=1.00时,sRNA靶标的个数分别从5到566不等,平均每个sRNA有111个靶标;P=值0.95时,靶标个数从33到1223不等,平均311个;P值=0.50时,sRNA靶标个数在48到1860,平均为614个。为进一步提高预测效率,我们通过一个综合性策略,即整合基于基因表达谱和基于序列两种方法的预测结果预测sRNA靶标。利用本中心以前开发的基于序列的sRNA靶标预测模型sRNATarget对上述sRNA的靶标mRNA进行了预测。基于sTarExp和sRNATarget两种方法预测结果的交集表明,靶标数量明显减少。当P值=1.00时,sRNA靶标的个数为平均每个sRNA有5个靶标;P=值0.95时,靶标个数平均为20个;P值=0.50时,sRNA靶标个数平均为68个。通过计算PPV值可见,综合策略的PPV值相对于sTarExp或sRNATarget任何一个模型得到了大幅度的提高。由此可见,综合策略的确能够为实验验证sRNA靶标提供更好的支持。sTarExp模型的靶标预测结果和综合策略结果的详细信息,请见实验室网页http://ccb.bmi.ac.cn/starexp/。
其他文献
煤层气是赋存在煤层中以甲烷为主要成分、以吸附在煤基质颗粒表面为主或溶解于煤层水中的烃类气体,是中国能源战略的重要组成部分。中石油和中联煤先后成立专门机构负责煤层
目的:观察丹参川芎嗪注射液治疗急性冠脉综合征(ACS)患者的临床疗效和对ACS患者血清超敏C-反应蛋白(hs-CRP)及射血分数(EF)的影响。方法:98例ACS患者随机分为对照组和治疗组,
<正> 古诗词是悠久而丰富的中华文化中光彩夺目的瑰宝。台湾女作家琼瑶的系列小说,是反映现代社会生活的作品。这两者,无论在时代上、内容上和表现形式上,都有很大的差异,然
“孟中印缅论坛”已走过五年的探索历程,现已开始步入实质性阶段。随着相关国家经贸合作水平的提高和对区域机制建设的共识日益增强,该机制已逐渐由学术主导的“二轨”层面向
<正> 在国际金融市场上筹集资金,是一个很复杂的问题。要研究集资策略和集资技术。除了确定利用外资的合理规模和保证拥有充分偿还能力之外,还要注意以下几个问题: 1.引进外
通过对实际复杂地形条件下中心回线瞬变电磁测深观测场量的几何分析,提出了在简单斜坡地形条件下瞬变电磁资料的几何校正法。该方法对观测场量和反演深度2个参数进行了几何校
"亲亲相隐"一直是学界关注的一个热点。近30多年的研究经历四个不断深化的阶段,取得了不少研究成果。在古代"家国一体"的伦理政治与法律的国家形态中,"亲亲相隐"具有家庭私权
党的十八届五中全会通过的“十三五”规划建议明确提出了“十三五”发展的整体构想,对夺取全面建成小康社会决定性胜利作出部署,为今后五年乃至更长远工作指明了方向。如期实现
报纸
目的探讨大鼠腰骶髓和延髓星形胶质细胞及神经元对慢性结肠炎的反应,及反应性星形胶质细胞和反应性神经元之间的关系。方法成年雄性SD大鼠,实验组(n=17)给予三硝基苯磺酸(TNB
以往对中国饮食食辣区域的分析还完全是一种纯感性的认识 ,如简单地认为南辣北淡 ,对各个食辣区的食辣程度也是众说纷纭。本文将统计分析、实地考察、文献记载结合起来研究 ,