论文部分内容阅读
microRNA(miRNA)是近年来才发现的一类内源性小分子非编码RNA,对miRNA的研究已成为当前生物信息学领域最热门的课题之一。研究表明miRNA在动植物的许多生物过程中发挥着重要的调控作用,同时与人类疾病的产生和发展紧密关联。准确识别miRNA并研究miRNA与疾病的关联,对理解基因表达调控网络、诊断及治疗人类疾病、推动药物研发等具有重要意义。 本文介绍了miRNA识别中涉及的生物学概念、机器学习算法、相关数据库等,重点研究了miRNA识别算法和疾病相关miRNA预测算法。论文就当前miRNA研究中存在的特征选择不合理、信息使用不充分、数据类别不平衡等问题提出了相应的解决方案。本文的主要研究内容如下: (1)针对目前miRNA识别研究中敏感性和特异性指标不佳或两者不平衡的问题,提出一种基于特征聚类和随机子空间的miRNA识别方法。该算法采用信息增益率剔除部分弱分类能力特征后,利用信息熵度量特征间的相关性并对特征聚类,聚类过程中从每个特征簇中随机选取一定比例的特征组成特征集。通过参数调优后选择最优特征集构建分类模型识别miRNA。实验结果表明,该算法取得了较好的识别效果,同时在敏感性和特异性的平衡方面表现优异。 (2)针对疾病-miRNA关联研究中信息使用不充分导致预测效果不佳的情况,提出一种基于综合相似性的疾病相关miRNA预测方法。该算法分别从疾病语义和疾病表型角度结合疾病-miRNA关联信息构建独立的miRNA功能相似性网络,在两个网络上分别应用随机游走模型,最后通得分函数融合两个网络的输出。与经典方法在18种疾病上实验对比表明,该算法具有一定的优势。 (3)进一步研究miRNA识别中存在的类别不平衡现象,提出一种基于混合采样的不平衡数据分类方法。该算法首先通过Borderline-SMOTE方法对少数类样本过采样,在此过程中对多数类的边界降采样并用NCL方法对邻域进行清理,最后对剩余多数类样本采用K-means算法聚类选取代表性样本,由此构建平衡训练集。实验表明该算法可以很好地解决miRNA识别中类别不平衡问题。