论文部分内容阅读
生物体内存在着种类和功能各异的RNA,其中非编码RNA是近年来新发现的一类RNA,它们在生物体的生命过程中主要起调控作用,而miRNA就是非编码RNA中最有代表性的一类。在植物中,miRNA可以通过碱基互补匹配的方式与靶基因相互识别,并以此对靶基因介导翻译抑制或对靶基因进行切割,进而影响基因性状的表达。基于miRNA及其靶向机制对生物体的重要作用,本文通过研究植物miRNA和靶基因的生物特性,采用深度学习的算法,设计了一种植物miRNA靶基因预测模型:DeepMiRNA,并开发了基于web的植物miRNA靶基因预测系统。自miRNA被发现,miRNA的相关数据量在不断攀升,对miRNA靶基因的预测也从传统的单一靶基因序列验证转变为借助计算机技术中的大数据和机器学习、深度学习等技术进行预测。并且由于一个miRNA一般会有多个靶基因,因此计算方法的产生极大的推动了miRNA靶基因预测的效率和准确性。因此基于当前的研究现状,本文利用在序列类自然语言处理中有出色表现的卷积神经网络(CNN)和循环神经网络的特殊形式双向长短期记忆网络(BiLSTM),设计出针对植物miRNA靶基因的预测模型DeepMiRNA。在数据的选择上,本文选择了拟南芥、大豆和水稻三种植物miRNA数据,并将三类植物数据进行混合产生混合数据。对数据的处理中包括对原始基因数据的碱基替换、序列补齐、数据编码等过程,从而将原始基因数据转换为可以输入模型的数据结构。经过模型的训练和测试实验,结果表明DeepMiRNA模型在基于拟南芥的数据中可以达到93%左右的准确率;在基于大豆的数据中可以达到89%左右的准确率;在基于水稻的数据中可以达到91%左右的准确率;在基于混合的数据中可以达到90%左右的准确率。在与其他分类算法进行对比后,显示DeepMiRNA模型在植物miRNA靶基因的预测问题上表现优异,预测结果优于对比的其他算法,表明本模型可以实现对该问题较好地进行分类。为进一步推进DeepMiRNA模型在植物miRNA靶基因预测上的应用,本文开发了植物miRNA靶基因预测系统,使用者可以使用该系统进行在线的靶基因预测并获得预测结果(http://www.deepbiology.cn/deepmi/)。