论文部分内容阅读
MicroRNA (miRNA)是一种非编码RNA,长度约为22个核苷酸,研究证实miRNA在基因表达中其重要的调控作用。对miRNA进行研究有助于人们了解基因功能,疾病关系以及生物进化规律。近年来,miRNA研究已经成为生物信息学领域重要课题之一,本文研究了miRNA有关了几个热点问题:miRNA预测及其家族预测分类,主要完成的工作为:(1)本文介绍了miRNA相关知识和当前挖掘方法。生物信息学中miRNA的研究大都利用了其生物特性,例如,miRNA序列的保守性,pre-miRNA的发夹结构等在miRNA挖掘及其靶基因挖掘算法中都被作为重要的信息特征;miRNA的成簇分布现象在家族研究中给予研究者以参考。因此本文分析了miRNA的主要生物特性,然后进一步研究了不同物种的特性差异,以供生物信息研究人员参考。利用miRNA生物特性进行挖掘预测是当前的热点问题之一,我们对比分析了当前主要的miRNA从头预测挖掘算法,供研究者根据需要选择合适算法。(2)提出了一种分层的miRNA家族预测方法-miRClassify,由于miRNA家族成员分布的不平衡性,多成员大家族和少成员小家族数量差距很大,利用这种分布的特点,本文提出了一种分层级联的分类方法,以有效准确的预测miRNA所属家族。miRClassify在机器学习过程中的特征提取,特征选择,分类算法等多个角度对比分析,证实了miRClassify所采用的每一步方法的优越性。此外,本文提供了基于该方法的在线使用网站和软件,以便与研究使用。(3)提出处理不平衡数据分布的分类方法-imDC,生物信息学中的数据普遍存在样本不平衡现象,这在其他领域也是比较常见的。为了提高少数类的识别精度,重视少数类的影响,本文提出算法imDC。imDC利用集成学习思想,将少数类样本和多数类样本以权重,组合的方式重组集成,消除不平衡性,并且使用不同的分类器训练,将多个弱分类器集成组合成为一个强分类器。本文使用几组UCI数据和一组miRNA数据对比其他算法来证明方法的优越性。