论文部分内容阅读
随着RNA干扰机制(RNAi)的发现,非编码RNA在基因表达和调控方面的功能受到了前所未有的关注,而miRNA因其与生物体的多项调控功能有着密切联系而成为关注重点。miRNA主要通过与其靶基因相互作用进而调控基因的表达,因此对miRNA靶基因的研究有助于我们理解miRNA的调控机制,是研究miRNA调控功能的关键步骤。现有的鉴定miRNA靶基因的实验技术价格昂贵,对实验的设备、环境以及操作人员的技术水平要求高,不适合对miRNA靶基因展开大批量、高置信度的鉴定实验。因此,在研发新的miRNA靶基因鉴定实验技术的同时,研究者正积极探索使用生物信息学的方法预测miRNA靶基因。目前已有的miRNA靶基因预测方法分为基于序列的方法和基于机器学习的方法。基于序列的方法在miRNA靶基因实验数据少,对miRNA的靶基因识别机制尚不了解的情况下非常适用。然而,随着miRNA靶基因实验数据的极速增长,基于序列的方法很难从庞大的数据中挖掘有效信息,且不能有效模拟复杂的miRNA作用机制,因此目前对miRNA靶基因的预测主要集中在基于机器学习的方法上。到目前为止,很多专家和学者提出了多种基于机器学习的miRNA靶基因预测方法,虽然这些方法在miRNA靶基因预测中都取得了一定成果,但普遍存在训练样本集不够完善、特征提取具有偏向性的问题。此外,靶基因特征的优化选择过程及分类器的使用都相对比较简单。针对以上问题,本文提出了新的基于机器学习的miRNA靶基因预测方法:首先对训练样本集的选取方法做出改进,引入mirWIP方法中构建训练样本集的方法,结合蛋白质免疫沉淀反应得到线虫中的miRNA靶基因作为本文实验数据集;其次,在选用具有代表性的miRNA靶基因特征的同时,设计提取了三核苷酸使用频率、三联体和部分位点可接近性三类新特征;再次,使用遗传算法对特征进行选择与优化,在保证预测精度的同时降低特征的维数;最后,分别使用k-最近邻法、支持向量机、神经网络三种分类器在不同实验数据集下对miRNA靶基因进行预测。实验结果表明,在不同实验数据集下,本文算法均获得了较高的预测精度。与此同时,为了进一步验证本文算法的有效性,我们使用独立测试集进行对比实验。实验结果表明,本文算法均优于经典的线虫miRNA靶基因预测方法。