鲁棒协同矩阵分解方法及在RNA-疾病关联数据上的预测

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:ching19846
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,专家学者们通过对大量数据的统计分析发现,癌症、阿尔兹海默症和糖尿病等重大疾病的发展调控机制与lnc RNA和mi RNA等RNA分子之间存在着重要关联。因此,设计提出有效的lnc RNA-疾病关联(Lnc RNA-Disease Association,LDA)预测方法和mi RNA-疾病关联(Mi RNA-Disease Association,MDA)预测方法对于复杂疾病的预防、诊断和治疗有着巨大的益处。在目前的研究中,协同矩阵分解方法(Collaborative Matrix Factorization,CMF)和图正则矩阵分解方法(Graph Regularized Matrix Factorization,GRMF)被广泛的应用于RNA-疾病关联预测方向。尽管这些方法具有良好的预测性能,但仍存在不足。首先,传统CMF方法忽略了相似性矩阵中的噪声对方法预测性能的干扰,导致方法的鲁棒性不足;其次,使用单一的相似性矩阵无法充分挖掘到数据集中的潜在信息,导致方法的预测性能下降;另外,传统CMF方法忽视了数据空间内部的几何结构信息,这也会导致算法精度不高。针对上述问题,本文对CMF方法进行了改进,并使用LDA数据集和MDA数据集对改进方法的性能进行了评估分析。本文具体的内容如下:(1)针对传统协同矩阵分解方法易受噪声干扰的问题,提出了双稀疏协同矩阵分解(Dual Sparse Collaborative Matrix Factorization,DSCMF)方法。通过在传统协同矩阵分解方法中引入L2,1范数,使矩阵产生行稀疏,可以消除冗余数据并且降低数据中噪声值对预测精度的影响,从而增强算法的鲁棒性。同时,在方法中添加高斯互作谱核(Gaussian Interaction Profile,GIP)用于计算lnc RNA的网络相似性和疾病的网络相似性,增加网络拓扑结构,从而挖掘更多的潜在信息。最后将该方法用于LDA预测,成功的预测出了许多新关联。(2)针对传统协同矩阵分解方法相似性矩阵单一,预测能力较弱的问题,提出了多标签融合协同矩阵分解(Multi-Label Fusion Collaborative Matrix Factorization,MLFCMF)方法。首先,该方法引入多标签学习来优化lnc RNA空间与疾病空间,降低原始单一相似性矩阵中噪声值的影响。其次采用非线性的融合方法对多标签进行归一化、迭代整合以及添加权重矩阵等处理,避免了在融合的过程中引入噪声。同时,通过权衡不同标签的作用来获得更为全面的信息,可以有效防止标签信息的丢失,消除标签内部的噪声,从而增强算法的鲁棒性。最后将该方法用于LDA预测,实验结果显示该方法拥有很好的预测性能。(3)针对传统协同矩阵分解方法忽视了数据空间内部几何结构的问题,提出了双网络稀疏图正则矩阵分解(Dual Network Sparse Graph Regularized Matrix Factorization,DNSGRMF)方法。首先,图正则化项的引入使方法在训练过程中可以充分考虑原始数据的流形结构,充分学习到原始数据空间内部的几何信息。而L2,1范数的引入可以消除冗余信息,使矩阵产生行稀疏,增强算法的鲁棒性。另外,引入GIP核来计算mi RNA网络相似性矩阵和疾病网络相似性矩阵,可以从原始数据中挖掘到更多的潜在信息。该方法最终被用于MDA预测,结果显示该方法拥有较高的预测性能。最终的实验结果表明,本文提出的各种方法均有效地减少了原始数据的噪声,具有很好的鲁棒性,能大大提高预测精度。
其他文献
在实际生产生活中,时滞现象广泛存在,如网络中信号的传输和处理产生时延,弹性力学中物理变化产生滞后,生物学中传染病存在潜伏期等.另一方面,系统经常遭受来自外界环境的干扰.时滞现象和外部扰动的存在,不仅使系统的分析和综合变得复杂和困难,而且是导致实际控制系统品质恶化和不稳定的重要因素.因此,时滞系统的鲁棒控制器设计成为控制领域一项重要的研究课题,近年来涌现了大量的研究成果,其中,基于时滞Hamilto
随着计算机和通信技术的发展,一种新型的大规模资源受限的无线嵌入式控制系统出现在人们的视野.在经典的样本数据控制框架中,无论系统控制是否需要更新,控制器的输出都可以随即应用于系统.然而当网络资源有限问题突出时,这可能并不是最优解决方案.在上述系统中,控制器与传感器之间的信息在必要时进行传递的这一思路促使了事件触发控制的出现.此外,由于事件触发控制不仅可以满足系统性能要求,而且在一定程度上能够节约资源
随着大数据时代的到来,数据存储量已从常见的TB上升为NB,1NB为260TB,在大数据商业价值备受关注的今天,海量数据的挖掘、分析、存储等问题都给计算机系统性能带来巨大挑战。Map Reduce系统的出现为大数据快速处理带来了可能,它是一种面向大规模数据处理的并行运算模型和方法。本文研究了Map Reduce同顺序作业排序极小化最大完工时间问题,全文共分四章。第1章简单介绍了经典排序问题的基本知识
无线通信技术和微电子技术的不断进步促进了无线传感网络(Wireless Sensor Networks,WSNs)的发展,WSNs广泛应用到生活、军事和工农业生产中的方方面面。但是,WSNs中的结点通常部署在无人值守或者环境恶劣甚至危险的环境中,同时,这些结点通常只有有限的电池、存储、计算和通信资源。因此,在不降低网络性能的情况下确保WSNs安全是一项挑战,结合安全机制的数据聚合可以为解决上述问题
随着计算机技术、无线通信和控制科学的迅猛发展和相互融合,网络化系统在航空航天、工业自动化、智能交通和国防等领域有着广泛的应用.与此同时,由于通信信道自身的消耗与受到的随机干扰、信号幅值的变化,信号在传输过程中会发生信道衰减现象,这会导致系统性能下降和不稳定.近年来,对于信道衰减环境下非线性系统的控制问题研究已取得了一系列重要成果,其中基于端口受控Hamiltonian(PCH)系统的控制和稳定性问
随着全民阅读工作的深入推进,全社会正在逐渐形成爱读书、读好书、善读书的良好氛围,全民阅读理念渐入人心。为了更好地引领校园阅读风尚,曲阜师范大学图书馆创建阅读推广小组,为大学生们构建阅读分享交流的平台。目前阅读推广小组虽然能够开展书香文化活动,但是仍然存在问题:第一,时间地点等因素限制了活动的开展,尤其此次新冠疫情期间,组员不在校,活动难以组织好;第二,小组活动管理不够集中,任务、通知、活动成果等需
极限学习机(Extreme Learning Machine,ELM)作为一种高效的前馈神经网络方法,在机器学习领域的发展非常迅速。与传统的单隐藏层前馈神经网络相比,ELM训练速度更快、泛化能力更强。在训练过程中,连接输入层和隐藏层的输入权重被随机初始化,唯一需要调整的参数是隐藏层与输出层之间的输出权重,且该参数可以通过求解一个岭回归问题得到。因此,ELM在近几年被广泛应用于各种监督学习和无监督学
随着互联网技术的发展,数据泄露等网络安全事件的发生变得更加频繁,因此隐私保护变得越来越重要。而匿名通信技术作为隐私保护的重要手段之一,受到人们越来越多的关注。为了增强匿名通信技术的安全性、匿名性以及通信效率,本文从身份认证和匿名通信两个方面进行研究。首先,基于区块链结构的不可篡改、透明性,本文提出了一个强前向安全的隐私感知身份认证模型,增强了用户身份的匿名性和安全性。其次,结合强前向安全的隐私感知
为有效降低海水淡化成本、满足日益加剧的淡水需求,基于反渗透膜串并联结构的大型反渗透膜组日益成为海水淡化的研究重点。但目前使用的反渗透膜组系统模型是以性能分析为导向的机理模型,该模型多以提升单膜性能为目标,存在形式复杂、不利于展开控制策略研究的问题,同时膜组反渗透效率的优化提升受到膜组串并联结构的限制,为此,本文从结构设计、建模、性能分析及优化控制几个方面对多膜反渗透膜组进行研究。反渗透膜组系统结构
随着全民健身意识的不断加强,越来越多的人加入到了户外运动的行列,同时户外运动的形式也在快速地发生变化,定向运动就是近几年在国内悄然兴起且越来越火的户外运动之一。传统的定向运动主要表现为由特定专业机构举行竞技定向赛事运动,现在其形式也快速多样化,备受广大户外运动爱好者的青睐。同时,传统的定向运动项目存在着诸多缺点,如设备昂贵且容易损坏或遗失,活动前都需要布点等繁琐的准备工作,参与者需要提前学习专业知