论文部分内容阅读
在生物学领域,识别microRNA(miRNA)与疾病之间的关联性对于临床医疗具有极其重要的意义,因此构建miRNA与疾病关联网络受到生物科学界越来越大的关注.然而,现今在这方面的研究主要是依赖先进的生物学仪器以及专业前沿科学家的实验观察而得出结论的,这样的研究方法是昂贵的并且及其耗费时间的.近些年来,数学以及计算机信息相关领域的科研工作者越来越关注生物信息学的发展,并致力于将统计学习等智能算法应用于生物大数据分析相关的前沿交叉学科方向.本文正是基于以上学术领域背景提出了基于正则化最小二乘法分类器的间谍刺探策略与超级集群策略,并通过结合该双层策略形成最终的miRNA与疾病关联预测模型SSCMDA.该模型将miRNA与疾病已知关联数据以及疾病结合相似性、miRNA结合相似性等经过充分数据挖掘的相似性信息作为输入数据,并首先设计实施了间谍刺探策略从miRNA与疾病的未知关联中识别出高可信度负样本,一定程度上解决了既含有潜在正样本又含有真正负样本的混合训练样本导致预测结果不准确的问题.此外,超级集群策略能够尽可能多地增加高可信度的正样本,从而通过克服缺少足够正训练样本的问题进一步提高预测的准确性.通过实施三种交叉验证,即全局留一交叉验证、局部留一交叉验证以及五折交叉验证,得到的AUC值分别为0.9007,0.8747以及0.8806+/-0.0025.通过将SSCMDA模型的AUC结果与一些早期模型进行比较,SSCMDA模型对miRNA与疾病关联预测的精确度得到了明显的提升.我们进一步在不同版本的HMDD数据库上实施了案例分析来测试SSCMDA模型预测能力的鲁棒性.我们同时实施了仿真案例分析来检验SSCMDA模型对没有已知相关miRNA的新疾病的预测效果.所有案例分析的实验结果表明,SSCMDA模型预测的大部分具有高置信度的miRNA与疾病关联能够被生物实验所验证,从而进一步证明了SSCMDA模型良好的预测能力.