论文部分内容阅读
微小RNA(microRNA,miRNA)是一类约22nt的重要小分子RNA,在转录后阶段对靶标基因的表达进行调控,进而影响生物的生长发育。miRNA靶基因的鉴定是认识其工作机制的关键,但由于缺乏快速有效的实验手段和高准确度的预测算法,靶基因的鉴定已成为miRNA功能研究的瓶颈问题。本文利用miRNA靶标结合位点相关区域的特征信息,融合生物学先验知识,以及合理的模体特征假设,开发了基于miRNA靶标上下文的miRNA预测结果筛选算法。1.资源分析:对当前已有的miRNA及靶标相关数据库资源进行了总结,对现有miRNA靶基因预测典型算法做了全面的研究,剖析了各种算法采用的靶基因识别特征,根据已有的算法评测结果,以及实际预测非3’UTR区域靶标结果的分析,总结现阶段靶标预测算法存在的问题。2.数据收集:从权威数据库下载了人、小鼠和果蝇三个物种各188、73、22条微小RNA基因。从NCBI网站下载并利用perl脚本分析处理,从基因组数据中提取出3’UTR、5’UTR及CDS序列。通过文献挖掘,收集了三个物种共827条经实验验证的miRNA靶标数据,作为正样本集。利用miRanda, TargetScan软件预测获得非3’UTR区域的靶标位点信息,从中随机抽取1000条预测靶标数据作为负样本集。其中,600个正样本作为训练集,200个作为测试集。800个负样本作为训练集,200个作为测试集。3.特征提取:针对3’UTR和两类非3’UTR区域的靶标位点上下文区域,从生物学意义、序列结构、二级结构稳定性等角度进行特征选取,共选取17条备选特征。对备选特征的区分效力进行分析,最终保留了8种特征用于构建SVM分类器,包括靶标位点在当前区域定位、靶标位点上游/下游GC含量、上下游折叠自由能、3’UTR区域靶标位点上游/下游富集motif数量、非3’UTR区域靶标位点上游/下游富集motif数量。4.算法开发:利用网格搜索法对SVM分类器参数进行优化,并采用10倍交叉验证方法对获得的SVM分类器进行训练和评价,构建了微小RNA基因的靶标预测算法svMicroTar.对测试集的分析结果表明,针对真实靶标与5’UTR区域预测靶标的svMicroTar-5分类器的敏感度为80%,特异性为86%;针对真实靶标与CDS区域预测靶标的svMicroTar-c分类器的敏感度为60%,特异性为65%。可见svMicroTar算法可在一定程度上区分非3’UTR靶标,并改善3’UTR靶标预测的准确度,尤其对与5’UTR区域虚假靶标类似的靶标位点有较好的区分能力。通过结果格式转换,svMicroTar可应用于当前miRNA靶标预测算法的二次筛选,拥有良好的泛化能力。