论文部分内容阅读
MicroRNA(miRNA)是一类长度约为22个核苷酸(nt)的非编码RNA,研究证实这类RNA基因在生物体内起着至关重要的作用。对miRNA基因的深入研究,有助于人们了解细胞中各基因的功能,基因间的网络调控关系,以及生物进化规律。近年来,miRNA研究已成为生物信息学领域的热点之一。本文所要研究的是目前生物信息学领域中有关miRNA的热点问题:miRNA挖掘以及其靶基因挖掘。 我们发现,目前基于机器学习的miRNA挖掘方法中对反例集(伪miRNA序列)的预测准确率普遍还不够高,会导致在大规模基因组进行挖掘时产生大量假阳性的样本,从而增加生物实验鉴别的成本。针对这一问题,本文对基于机器学习的miRNA预测算法进行了相关研究,研究内容包括:(1)提出了新的反例集的挖掘方法,并基于此方法在人类编码区中挖掘出了高质量的反例集,提高了现有预测模型的代表性;(2)设计有效的特征提取方案,结合所提取的代表性反例集提出了新的miRNA预测算法——miRNAP。通过实验证明,miRNAP较其他预测方法在特异性方面有明显提升,降低了假阳性。(3)通过融合miRNAP,我们在JAVA平台下开发了能够在大规模基因组中挖掘miRNA的工具包——mirnaDetect。同其他挖掘软件相比,mirnaDetect表现出优越的挖掘性能。此外,我们在文中还对miRNA靶基因挖掘等相关问题做了相关深入的研究探讨。