【摘 要】
:
生物测序技术的发展使得人们获得了大规模的基因组学数据,这些组学数据包含了个体或者细胞的微妙变化,对其进行挖掘研究可为探索疾病的机制、量化细胞的差异以及构建生命系统网络等提供有效的帮助。基因组学数据通常具有高维小样本的特点,这对于样本的下游分析造成了很大的阻碍。而矩阵分解作为一种有效的数据降维方法,受到了学者们的广泛关注。测序数据不可避免地会存在一些噪音或异常值,但传统的矩阵分解方法在面对这些噪音或
论文部分内容阅读
生物测序技术的发展使得人们获得了大规模的基因组学数据,这些组学数据包含了个体或者细胞的微妙变化,对其进行挖掘研究可为探索疾病的机制、量化细胞的差异以及构建生命系统网络等提供有效的帮助。基因组学数据通常具有高维小样本的特点,这对于样本的下游分析造成了很大的阻碍。而矩阵分解作为一种有效的数据降维方法,受到了学者们的广泛关注。测序数据不可避免地会存在一些噪音或异常值,但传统的矩阵分解方法在面对这些噪音或异常值时其性能可能有所降低。本文旨在对原始的非负矩阵分解(Non-negative Matrix Factorization,NMF)模型和低秩表示(Low-rank Representation,LRR)模型进行改进和完善,并应用其对基因组学数据进行降维处理,具体研究内容如下:(1)针对基因组学数据中的非高斯噪音以及固有的流形结构等特点,提出了基于相关熵的稀疏鲁棒非负矩阵分解方法(SGNMFC)。该方法将传统的欧式距离替换为熵函数以提高算法的鲁棒性。同时对数据的流形结构进行编码以获得数据点的空间几何关系。最终将该算法应用在癌症数据的特征基因提取以及样本聚类上,为癌症的系统研究提供了更多支持。(2)针对部分基因组学数据被噪音污染以及数据中存在大量冗余特征等特点,提出了基于Huber损失的稀疏鲁棒非负矩阵分解方法(Huber-SGNMF)。该方法将欧式距离替换为Huber损失以提高算法的鲁棒性。Huber损失能够自动的辨别数据是否被污染并决定对数据采用近似L1范数或L2范数约束。进一步对特征矩阵添加L2,1范数约束项以去除大量的冗余特征,获得具有行稀疏特性的矩阵。最终将该算法在多种癌症整合的数据集中验证其聚类性能和差异表达基因提取性能,为寻找多个癌症之间的关联提供帮助。(3)针对不同细胞种群的边界模糊以及细胞相似性构建模糊等问题,提出了基于自适应总变分的低秩矩阵分解方法(ATV-LRR)。首先,该方法采用LRR模型重建原始数据的低秩子空间结构,在子空间中学习细胞的相似性信息。然后,增加了自适应的总变分约束以去除同类别细胞数据的噪音并且学习不同细胞种群的边缘特性。最后将该方法应用在单细胞基因测序数据中学习细胞之间的异质性并且划分细胞种群。(4)针对单个聚类模型不能适应于不同生物数据的问题,提出了基于子空间集成框架的低秩矩阵分解方法(LRSEC)。该方法将低秩子空间模型作为基础学习器,LRR方法可将相同类型的细胞映射在同一子空间中并且学习细胞成对的相似性。然后,在多个个体学习器中构建集成模型,集成模型避免了单个模型在不同数据集上性能不稳定的局限性。最后,将该方法应用在单细胞基因测序数据集中聚类细胞种群并提取基因标记物,有利于理解生命系统中复杂的细胞网络。本文所提出的方法在基因组学数据上得到了应用,其结果表明这些方法能够更加有效地处理受噪音污染的数据,并且保留和学习数据中的流形结构信息。它们不仅具有良好的聚类和特征选择性能,而且优于现有的同类方法。
其他文献
随着互联网技术的发展,数据泄露等网络安全事件的发生变得更加频繁,因此隐私保护变得越来越重要。而匿名通信技术作为隐私保护的重要手段之一,受到人们越来越多的关注。为了增强匿名通信技术的安全性、匿名性以及通信效率,本文从身份认证和匿名通信两个方面进行研究。首先,基于区块链结构的不可篡改、透明性,本文提出了一个强前向安全的隐私感知身份认证模型,增强了用户身份的匿名性和安全性。其次,结合强前向安全的隐私感知
为有效降低海水淡化成本、满足日益加剧的淡水需求,基于反渗透膜串并联结构的大型反渗透膜组日益成为海水淡化的研究重点。但目前使用的反渗透膜组系统模型是以性能分析为导向的机理模型,该模型多以提升单膜性能为目标,存在形式复杂、不利于展开控制策略研究的问题,同时膜组反渗透效率的优化提升受到膜组串并联结构的限制,为此,本文从结构设计、建模、性能分析及优化控制几个方面对多膜反渗透膜组进行研究。反渗透膜组系统结构
随着全民健身意识的不断加强,越来越多的人加入到了户外运动的行列,同时户外运动的形式也在快速地发生变化,定向运动就是近几年在国内悄然兴起且越来越火的户外运动之一。传统的定向运动主要表现为由特定专业机构举行竞技定向赛事运动,现在其形式也快速多样化,备受广大户外运动爱好者的青睐。同时,传统的定向运动项目存在着诸多缺点,如设备昂贵且容易损坏或遗失,活动前都需要布点等繁琐的准备工作,参与者需要提前学习专业知
近几年,专家学者们通过对大量数据的统计分析发现,癌症、阿尔兹海默症和糖尿病等重大疾病的发展调控机制与lnc RNA和mi RNA等RNA分子之间存在着重要关联。因此,设计提出有效的lnc RNA-疾病关联(Lnc RNA-Disease Association,LDA)预测方法和mi RNA-疾病关联(Mi RNA-Disease Association,MDA)预测方法对于复杂疾病的预防、诊断和
本文主要研究了几类反应扩散方程的适定性和动力学,包括非自治三分量可逆Gray-Scott系统、随机三分量Gray-Scott系统以及随机二厢Gray-Scott系统.本文分为六个章节.第一章,我们介绍了动力系统、吸引子以及反应扩散方程的物理背景和研究现状,并给出了本文的创新所在和整体结构.第二章,我们定义了一些符号,并给出了一些定义、定理、命题和性质,包括随机动力系统和吸引子的定义.第三章,我们考
随着物联网技术快速发展,大量数据随之产生,为传统的云计算带来巨大的数据处理压力。作为云计算的延伸,边缘计算将数据处理、存储等能力扩展到物联网设备附近的网络边缘侧,大量数据不需要上传云端,减少了网络传输负载,降低了传输时延。目前,边缘计算存在两个亟待解决的问题:一是如何在数据源附近实现任务的及时处理和反馈。二是样本在每个维度空间分布不均,如何对数据进行有效降维。这两个问题决定了边缘计算的服务质量,进
复杂疾病往往是由遗传、环境等多种因素共同作用导致的。挖掘复杂疾病的潜在遗传模式是揭示复杂疾病遗传机理的重要方法,其中基于多组学数据的复杂疾病网络模式挖掘方法为识别复杂疾病的遗传因子提供了新思路。本文以仿真数据和真实的复杂疾病多组学数据(基因表达数据、甲基化数据、拷贝数变异数据、单核苷酸多态性数据等)为基础,以遗传交互网络的构建与网络模式挖掘方法为手段,致力于发现复杂疾病的潜在遗传模式。具体研究内容
当今社会,科技的发展日新月异,智能机器人的应用扩展到越来越多的领域中。医疗领域的康复机器人越来越广泛地应用于具有运动功能障碍患者的康复训练中。绳驱动并联机器人具有工作空间大、运动速度快等优点,具有较强的实用价值。由于现有的绳驱动康复机器人主要采用绳悬吊或者外骨骼式的形式,存在康复患者初期进行训练时会由于肌无力问题影响康复训练效果的问题,所以本文研究了一种新型卧式绳驱动康复护理机器人的建模与控制问题
随着社会的快速发展,教育越发受到大众重视。在我国素质教育的大环境下,中小学生所要接触到的不仅仅是一成不变的教科书知识,还涉及到方方面面,比如在人文素养方面的发展、在科技知识方面的要求等等。但面对种类繁多、信息冗杂的图书,中小学生想要找到适合自己本阶段使用的书籍和相关资料有一定的难度,而且没有特定的目标就没有办法选择适合自己的图书。因此,可以利用读者产生的海量数据加上合适的推荐算法,分析读者的阅读记
近几年,大系统得到了广泛应用,本文通过构造新型Lyapunov-Krassovskii泛函,研究了具有不确定性非匹配项的非线性互联时滞大系统分散自适应控制器设计问题。本设计无需借用线性矩阵不等式,提出显性控制器增益函数,运用自适应方法对系统未知项和不确定项进行估计和补偿。本文的主要研究内容如下:在第二章中,针对一类不确定且具有不匹配项的互联时滞大系统提出了一种精确控制器增益的分散自适应控制算法。通