鲁棒矩阵分解方法的研究及在疾病关联数据上的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:yanhe100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的复杂疾病,如癌症、糖尿病、心脑血管疾病等,正成为死亡率极高的疾病。而且,生物学家和医学家的研究表明,这些复杂的疾病往往与多种生物分子有关联,如药物-靶标相互作用(Drug-Target Interaction,DTI)、药物-疾病相互作用(Drug-Disease Interaction,DDI)、miRNA-疾病关联(miRNA-Disease Association,MDA)和lncRNA-疾病关联(lncRNA-Disease Association,LDA)。虽然这些疾病关联数据中,蕴含着解决复杂疾病的关键的生物信息规律,但是,这些数据中包含着大量的噪声,这些噪声会干扰挖掘潜在的疾病关联信息。在生物信息学中,矩阵分解模型是一种被广泛应用的预测模型,如图正则矩阵分解模型(Graph Regularized Matrix Factorization,GRMF)和协同矩阵分解模型(Collaborative Matrix Factorization,CMF)。但是,传统的矩阵分解模型在疾病关联预测中存在着一些弊端:疾病关联数据集中的噪声值会干扰算法的准确度;误差值的平方项会增加算法对于异常值的敏感性从而降低算法的预测精度;传统的方法仅仅使用单一的疾病语义相似性而忽略了它们之间的网络相似性;传统的方法所使用的数据集并没有考虑到数据间的内部几何结构。因此,针对存在的这些问题,基于传统的GRMF和CMF方法,分别对其做出了相应的改进,相比于目前存在的一些其他的先进方法,改进后的方法具有较高的预测精度。针对不同的疾病关联数据,具体主要包括以下四个方面的研究:(1)针对药物-靶标相互作用数据集,提出了一种基于稀疏的图正则矩阵分解方法(L2,1-GRMF)。考虑到预测DTI既耗时又昂贵,重要的是要提高计算方法的准确性。有许多算法可以预测全局相互作用,其中一些算法使用药物-靶标网络进行预测。由于数据集通常位于低维非线性流形上,因此,在GRMF方法中引入L2,1范数来产生矩阵的行稀疏,从而学习这些流形结构。通过在不同的DTI数据集上实验表明,在大多数情况下,L2,1-GRMF方法优于其他方法。(2)针对miRNA-疾病关联数据集,提出了一种鲁棒协同矩阵分解方法(RCMF)。预测潜在的MDA既耗时又昂贵,所以提高预测结果的准确性迫在眉睫。因此,开发一种新的计算模型来预测新的MDA至关重要。尽管现有的一些方法可以有效地预测潜在的MDA,但仍然存在一些不足。特别是在处理疾病矩阵时,其稀疏性是影响最终结果的重要因素。将L2,1范数引入到CMF中以实现算法的稀疏性,从而证明了算法具有鲁棒性,同时得到了比其他先进方法更高的AUC(Area Under roc Curve)值。(3)针对药物-疾病相互作用数据集,提出了一种双网络稀疏协同矩阵分解方法(DNL2,1-CMF)。开发一种新药极其困难,需要耗费大量的时间和金钱。目前常用的手段是根据已知的DDI,去预测未知的DDI。因此,一个有效的数据挖掘方法变得非常关键。通过使用高斯互作谱(Gaussian Interaction Profile,GIP)核函数计算出药物的网络相似性和疾病的网络相似性,然后分别将lnc RNA网络相似性矩阵与lnc RNA表达相似性矩阵组合,疾病网络相似性矩阵与疾病表达相似性矩阵组合。最后,为了增加疾病矩阵的稀疏度,在疾病子矩阵上引入了L2,1范数约束。实验结果表明,所提方法具有较好的预测性能并能够有效地预测出潜在的DTI。(4)针对lncRNA-疾病关联数据集,提出了一种加权图正则协同矩阵分解方法(WGRCMF)。随着生物学和医学的发展,越来越多的研究表明lnc RNA与疾病有关,因此寻找一些新的LDA尤为重要。更重要的是,一些潜在的LDA对疾病的治疗和预防是有益的。图正则化约束项引入到CMF中,考虑到流形学习可以从高维采样数据中恢复低维流形结构,因此能够在高维空间中找到低维流形。另外,权重矩阵也被引入到该方法中,其重要性在于防止未知的关联对最终的预测矩阵做出贡献。最后,该方法的预测精度优于其他先进方法。
其他文献
覆膜栽培具有保温保墒的作用,显著提高烟草产量和品质,因此广泛应用于烟草种植。但在烟草植株生长的中后期,随着温度上升,地膜对烟株生长产生负效应,尤其是低海拔地区这种负
目的:探讨Gensini积分及左室射血分数(LVEF)对接受成功经皮冠脉介入治疗的急性ST段抬高型心肌梗死患者1年预后的预测价值。方法:入选2018年1月至2018年10月入院并接受成功PCI
光通信领域作为信息领域的重要支柱之一,近来不断高速发展。随着不断精进的纳米材料加工技术,为了解决器件发热高、尺寸大、集成度低等一系列制约光通信发展的问题,科研人员在光通信领域基于表面等离激元将光通信器件和纳米结构结合起来,并对其应用进行研究。基于表面等离激元的光通信器件具有优越的特性。它可以有效降低能量损耗,提高集成度,构建亚波长级别光器件。表面等离激元能在纳米尺度上传递电磁波,有效突破衍射极限,
目的:葡萄糖激酶调节蛋白基因(Glucose kinase regulatory proteins gene,GCKR)多态性与非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD)及冠心病(Coronary ath
目的:探讨HS3ST2基因对大鼠GH3细胞系中Wnt通路及ECM-受体相互作用通路相关分子表达的调控及机制。方法:对大鼠GH3细胞中HS3ST2基因的表达进行干扰,通过蛋白质印记(Western-B
目的:探讨马里苷(Marine)作为聚(ADP-核糖)聚合酶-1(Poly(ADP-ribose)Polymerase,PARP1)抑制剂增强人源结肠癌细胞HCT116及鼠源结肠癌细胞MC38对辐照的敏感性。方法:(1)用MTT
随着微机电系统和互联结构材料体系的发展,金属多层膜由于其优异的电学和力学性能而广泛应用。多层膜是指由两种或两种以上的组元材料以一定的原子比或厚度沿垂直于衬底方向
引黄灌溉是农业发展的重要方式之一。黄河下游地区横贯于华北平原之上,在历经多次的调水调沙后,黄河下游沿程冲刷,主槽河底高程降低,同流量下黄河水位下降,造成黄河下游部分
目的:高血压是一种常见的高危害性心血管疾病,虽然临床有多种药物用于治疗高血压,但部分药物副作用明显,因此急需寻找副作用少并能防治靶器官损害的药物。在中医临床实践过程
金属有机配位化合物之所以现在成为结构化学研究领域中最受欢迎的研究热点内容,主要是由于其具有以下几点优势:稳定的结构、可预测的拓扑类型、易于修改或剪切的结构以及可以