基于自适应混合Copula的可重复性度量及在高通量深度测序中的应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:duyyy12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的计算性能与存储能力的发展,各类实验产生的数据量也与日俱增。在这种情况下,一个现实的问题也开始摆在我们的面前:如何应对和处理爆炸般增长的数据?通常来说,数据处理的第一步就是筛选数据,把数据中的干扰或错误数据筛除,仅留下正确、真实的数据,而实现这一目标的一项重要手段就是可重复性度量。可重复性指的是,对某个样本的两次观测或对某个实验的两次重复,所得到的两个结果相互之间一致的可能性的度量。简单的说,如果两次观测或两次实验的两个结果的可重复性高,即认为这个数据本身可靠性高,反之则认为数据可靠性低,有较大的可能是被干扰或污染的数据。因此,一旦估计出了数据的可重复性,即可以此为据筛查掉有问题的数据,从而增强保证了后续步骤的可靠性。在本文中,我们先是介绍了COpula理论的相关内容,再给出了混合Copula的定义并证明了一些相关定理及性质,然后基于混合Copula提出了自适应混合Copula方法。这种自适应混合Copula存在一些独有的优点,如不需要对数据分布的假设、可自行适应数据等。在此基础上,我们构建了一种估计数据可重复性的方法SaMiC,这种方法无需人工对数据分布进行预判,也无需人工调参,即可进行可重复性的度量。随后,我们分别使用模拟数据与真实的生物数据,对我们提出的SaMiC方法进行测试,并与另一种度量可重复性的方法IDR进行了对比。我们从实验结果的角度出发,分析了两种方法各自的实验结果,并结合方法本身的理论基础,综合展示了SaMiC的优越性。
其他文献
本文详细研究了在最小分配单位为给定物品组合情况下的组合分配问题模型,从计算理论的角度通过构造性方法证明该问题可在多项式时间规约为于本文首先提出的无向图边带权最大独
本文主要研究和探索遗传算法和并行算法在图象矢量量化编码中的应用。遗传算法的引入解决了LBG等经典算法所存在的缺点,同时提高了运行效率。在小波变换和矢量量化编码相结合
  技术的进步导致了计算模式的一再演变,强大的计算能力、充分的带宽和廉价的存储设备成为了P2P计算模式的促进力量。P2P以更有效的方式利用资源,同时深刻影响着其他领域。本
随着“后基因时代”到来,人类基因组计划和随后发展的各种组学技术以及高通量实验方法的发展,导致大量的基因组、转录组、蛋白质组学、代谢组等组学数据的产生,现代生物信息整合
入侵检测技术是一种主动保护系统或网络免受攻击的一种信息安全技术。数据挖掘是从海量的数据中提取出用户感兴趣的数据信息(知识);针对其特点目前很多人把数据挖掘技术用到入
嵌入式系统技术是近几年来发展较快的—种新兴技术,嵌入式系统产品已经被广泛地应用在科技、工业、通信、生活等各个领域。随着信息化、智能化、网络化的发展,嵌入式系统将成
学位
网格技术是近年来迅速兴起的一门新技术,它的出现掀起了下一波互连网技术的浪潮。计算网格作为网格技术最早也是最主要的应用,目前已成为国内外研究的热点。它最初的目标是通
随着市场经济的发展,企业、机构需要顺应市场需求的变化,提高应对市场变化的快速反应能力,因此企业的业务流程需要再造或优化。面向活动的流程挖掘着重描述流程的执行过程,流
学位