论文部分内容阅读
microRNA(miRNA)是一类主要功能为在转录后水平上抑制基因表达的内源性小型非编码RNA分子,它在许多重要的生物学过程中的都具有调控作用,其中就包含人类的复杂疾病。最近的研究表明,许多复杂疾病往往伴随着miRNA的异常表达,所以miRNA可以作为一类疾病诊断的潜在生物标记物和分子靶向治疗的靶标位点,来辅助疾病诊断、治疗以及预后。因此,大规模预测潜在的miRNA-疾病关联,对探明致病机制有十分重要的意义。考虑到传统的体外实验存在耗时和成本高昂等问题,研究有效、可行的计算方法来预测miRNA与疾病之间的潜在关联越来越受到人们关注。本文主要研究RNA序列的特征提取以及多源数据融合,提出了3种应用于miRNA-疾病相关性预测的计算模型:1、基于矩阵分解的miRNA-疾病相关性预测算法MLMDA。算法使用k-mer稀疏矩阵提取miRNA序列信息,并将其与miRNA功能相似性、疾病语义相似性和高斯相互作用谱内核相似性信息相结合;然后,通过深度自动编码器神经网络(AE)来从中提取更多具有代表性的特征。最后,采用随机森林分类器来有效预测潜在的miRNA-疾病关联。2、基于混沌博弈和增量学习的miRNA-疾病相关性预测算法MISSIM。算法通过混沌博弈表示来提取miRNA序列的深层特征,并以此量化miRNA之间的相似程度。然后,引入增量学习来有效避免超参数调整的敏感性和“灾难性的遗忘”等添加新数据时经常遇到训练问题。3、基于生物关联网络嵌入的miRNA-疾病相关性预测算法iMDA-BN。算法从全局生物学网络的角度出发,对miRNA和疾病进行网络嵌入表示,并结合其属性信息来构建预测计算模型。iMDA-BN具有三个显著优势:(1)它使用一种描述疾病和miRNA特征的新方法,该方法从生物关联网络的角度分析了疾病和miRNA的节点表示信息。(2)即使miRNA和疾病未出现在生物关联网络中,它也可以预测未经证实的关联。(3)根据高通量序列信息从生物学特性来准确描述miRNA特征。这3种算法在不同的性能评估中均取得了优越的预测性能。在五折交叉验证评估中,MLMDA算法、MISSIM算法和iMDA-BN算法的平均ROC曲线下的面积(AUC)分别为0.9172、0.9400和0.9145,均高于最先进算法的平均值。此外,通过案例分析也验证了这3种算法的鲁棒性。该论文有图21幅,表28个,参考文献92篇。