论文部分内容阅读
现有研究表明,基因组中存在大量的非编码RNA(ncRNA),在基因表达调控等方面发挥重要作用。如何利用生物信息学手段发现ncRNA,从而为用实验手段发现ncRNA提供帮助已成为生物信息学的研究热点之一。为此,木研究以酵母基因组为研究对象,以k-tupie组成为特征变量,运用机器学习方法系统研究了酵母基因组中ncRNA的预测问题。
首先,构建用于机器学习的训练集与测试集,利用90条位于基因问区中的ncRNA作为阳性数据集,并提取出其上游和下游各1000nt的序列。为了构建阴性数据集,从酵母基因组中提取了功能注释比较清晰的4058个蛋白编码基因,为了保持阳性与阴性数据集中序列数目的平衡,我们以成熟mRNA蛋白编码区的3-tuple含量与上游和下游1000nt序列的4-tupie含量为特征进行聚类去冗余,将获得的90个代表样本点作为阴性数据集。最终从阳性和阴性数据中各随机抽取出80个序列作为训练集,余下的序列作为测试集。
其次,利用Naive Bayes和SVM方法构建分类器,结果如下:
1、以ncRNA序列和蛋白编码基因编码区的3-tuple含量为特征构建分类器,基于Naive Bayes方法的训练集精度为85%,测试集精度为90%;基于SVM方法的训练集精度为98.75%,测试集精度为90%。
2、利用ncRNA和蛋白编码基因起始密码子上游4-tuple含量构建分类器,基于Naive Bayes方法的训练集精度为93.73%,测试集精度为75%;基于SVM方法的训练集精度为100%,测试集精度为90%。
3、利用ncRNA和蛋白编码基因终止密码子下游4-tupie含量构建分类器,基于Naive Bayes方法的训练集精度为93.75%,测试集精度为85%;基于SVM方法的训练集精度为100%,测试集精度为90%。
最后,鉴于SVM方法给出的测试集分类精度要高于Naive Bayes方法给出的分类精度,利用SVM方法构建的分类器在酵母基因问区中进行扫描,最终得到7469条预测的ncRNA序列,其中包含了已知的76条ncRNA,占基因间区的酵母ncRNA的84.4%(76/90),为酵母基因组中ncRNA的实验发现提供了生物信息学支持,也为其它物种基因组中的ncRNA发现提供了方法学参考。