基于机器学习的酵母ncRNA预测研究

来源 :中国人民解放军军事医学科学院 解放军军事医学科学院 | 被引量 : 0次 | 上传用户:diger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有研究表明,基因组中存在大量的非编码RNA(ncRNA),在基因表达调控等方面发挥重要作用。如何利用生物信息学手段发现ncRNA,从而为用实验手段发现ncRNA提供帮助已成为生物信息学的研究热点之一。为此,木研究以酵母基因组为研究对象,以k-tupie组成为特征变量,运用机器学习方法系统研究了酵母基因组中ncRNA的预测问题。 首先,构建用于机器学习的训练集与测试集,利用90条位于基因问区中的ncRNA作为阳性数据集,并提取出其上游和下游各1000nt的序列。为了构建阴性数据集,从酵母基因组中提取了功能注释比较清晰的4058个蛋白编码基因,为了保持阳性与阴性数据集中序列数目的平衡,我们以成熟mRNA蛋白编码区的3-tuple含量与上游和下游1000nt序列的4-tupie含量为特征进行聚类去冗余,将获得的90个代表样本点作为阴性数据集。最终从阳性和阴性数据中各随机抽取出80个序列作为训练集,余下的序列作为测试集。 其次,利用Naive Bayes和SVM方法构建分类器,结果如下: 1、以ncRNA序列和蛋白编码基因编码区的3-tuple含量为特征构建分类器,基于Naive Bayes方法的训练集精度为85%,测试集精度为90%;基于SVM方法的训练集精度为98.75%,测试集精度为90%。 2、利用ncRNA和蛋白编码基因起始密码子上游4-tuple含量构建分类器,基于Naive Bayes方法的训练集精度为93.73%,测试集精度为75%;基于SVM方法的训练集精度为100%,测试集精度为90%。 3、利用ncRNA和蛋白编码基因终止密码子下游4-tupie含量构建分类器,基于Naive Bayes方法的训练集精度为93.75%,测试集精度为85%;基于SVM方法的训练集精度为100%,测试集精度为90%。 最后,鉴于SVM方法给出的测试集分类精度要高于Naive Bayes方法给出的分类精度,利用SVM方法构建的分类器在酵母基因问区中进行扫描,最终得到7469条预测的ncRNA序列,其中包含了已知的76条ncRNA,占基因间区的酵母ncRNA的84.4%(76/90),为酵母基因组中ncRNA的实验发现提供了生物信息学支持,也为其它物种基因组中的ncRNA发现提供了方法学参考。
其他文献
目的:探讨泌尿系结石运用体外冲击波与内镜手术治疗效果.方法:选取2017年3月-2019年2月我院72例泌尿系结石患者为研究对象,根据治疗方案不同均分为两组,对照组体外冲击波方案
目的:观察开腹手术和腹腔镜手术在结肠癌中的应用价值.方法:2017年1月-2019年8月本院接诊的结肠癌病患58例,采用随机数表法划分成A、B两组(n=29).当中,A组实行腹腔镜手术治疗
目的:回顾性分析慢性鼻窦炎鼻息肉患者采取鼻内镜手术治疗的临床疗效.方法:研究选取的时间为2016年9月~2019年2月,对象为本院收治的72例慢性鼻窦炎鼻息肉患者,所有患者均实行
阻塞性睡眠呼吸暂停低通气综合征(obstructive?sleep?apnea?hypopnea?syndrome,OSAHS)是指患者在睡眠过程中反复出现呼吸暂停和低通气.易引发或加重心脑血管疾病及代谢紊乱,
无线传感器网络是受到广泛关注的新一代网络技术,适用于军事、健康医疗、环境监测、智能家居等诸多领域。介质访问控制(MAC)层处于无线传感器网络的底层部分,决定了无线信道
目的:分析超声在产科急腹症诊断中的应用效果.方法:在我院产科收治的急腹症患者中选取45例,起止时间是2017年3月~2019年6月.分别对患者进行经腹超声、经阴超声检查,观察比较诊
目的:调查广州市海珠区流动人口孕产妇避孕现状及对避孕宣教服务的需求情况,探讨适合该群体的避孕宣教服务模式.方法:采用完全随机的方法对海珠区江海、南洲及赤岗街道的流动