论文部分内容阅读
近年来,越来越多的复杂疾病,如癌症、糖尿病、心脑血管疾病等,正成为死亡率极高的疾病。而且,生物学家和医学家的研究表明,这些复杂的疾病往往与多种生物分子有关联,如药物-靶标相互作用(Drug-Target Interaction,DTI)、药物-疾病相互作用(Drug-Disease Interaction,DDI)、miRNA-疾病关联(miRNA-Disease Association,MDA)和lncRNA-疾病关联(lncRNA-Disease Association,LDA)。虽然这些疾病关联数据中,蕴含着解决复杂疾病的关键的生物信息规律,但是,这些数据中包含着大量的噪声,这些噪声会干扰挖掘潜在的疾病关联信息。在生物信息学中,矩阵分解模型是一种被广泛应用的预测模型,如图正则矩阵分解模型(Graph Regularized Matrix Factorization,GRMF)和协同矩阵分解模型(Collaborative Matrix Factorization,CMF)。但是,传统的矩阵分解模型在疾病关联预测中存在着一些弊端:疾病关联数据集中的噪声值会干扰算法的准确度;误差值的平方项会增加算法对于异常值的敏感性从而降低算法的预测精度;传统的方法仅仅使用单一的疾病语义相似性而忽略了它们之间的网络相似性;传统的方法所使用的数据集并没有考虑到数据间的内部几何结构。因此,针对存在的这些问题,基于传统的GRMF和CMF方法,分别对其做出了相应的改进,相比于目前存在的一些其他的先进方法,改进后的方法具有较高的预测精度。针对不同的疾病关联数据,具体主要包括以下四个方面的研究:(1)针对药物-靶标相互作用数据集,提出了一种基于稀疏的图正则矩阵分解方法(L2,1-GRMF)。考虑到预测DTI既耗时又昂贵,重要的是要提高计算方法的准确性。有许多算法可以预测全局相互作用,其中一些算法使用药物-靶标网络进行预测。由于数据集通常位于低维非线性流形上,因此,在GRMF方法中引入L2,1范数来产生矩阵的行稀疏,从而学习这些流形结构。通过在不同的DTI数据集上实验表明,在大多数情况下,L2,1-GRMF方法优于其他方法。(2)针对miRNA-疾病关联数据集,提出了一种鲁棒协同矩阵分解方法(RCMF)。预测潜在的MDA既耗时又昂贵,所以提高预测结果的准确性迫在眉睫。因此,开发一种新的计算模型来预测新的MDA至关重要。尽管现有的一些方法可以有效地预测潜在的MDA,但仍然存在一些不足。特别是在处理疾病矩阵时,其稀疏性是影响最终结果的重要因素。将L2,1范数引入到CMF中以实现算法的稀疏性,从而证明了算法具有鲁棒性,同时得到了比其他先进方法更高的AUC(Area Under roc Curve)值。(3)针对药物-疾病相互作用数据集,提出了一种双网络稀疏协同矩阵分解方法(DNL2,1-CMF)。开发一种新药极其困难,需要耗费大量的时间和金钱。目前常用的手段是根据已知的DDI,去预测未知的DDI。因此,一个有效的数据挖掘方法变得非常关键。通过使用高斯互作谱(Gaussian Interaction Profile,GIP)核函数计算出药物的网络相似性和疾病的网络相似性,然后分别将lnc RNA网络相似性矩阵与lnc RNA表达相似性矩阵组合,疾病网络相似性矩阵与疾病表达相似性矩阵组合。最后,为了增加疾病矩阵的稀疏度,在疾病子矩阵上引入了L2,1范数约束。实验结果表明,所提方法具有较好的预测性能并能够有效地预测出潜在的DTI。(4)针对lncRNA-疾病关联数据集,提出了一种加权图正则协同矩阵分解方法(WGRCMF)。随着生物学和医学的发展,越来越多的研究表明lnc RNA与疾病有关,因此寻找一些新的LDA尤为重要。更重要的是,一些潜在的LDA对疾病的治疗和预防是有益的。图正则化约束项引入到CMF中,考虑到流形学习可以从高维采样数据中恢复低维流形结构,因此能够在高维空间中找到低维流形。另外,权重矩阵也被引入到该方法中,其重要性在于防止未知的关联对最终的预测矩阵做出贡献。最后,该方法的预测精度优于其他先进方法。