论文部分内容阅读
随着计算机的计算性能与存储能力的发展,各类实验产生的数据量也与日俱增。在这种情况下,一个现实的问题也开始摆在我们的面前:如何应对和处理爆炸般增长的数据?通常来说,数据处理的第一步就是筛选数据,把数据中的干扰或错误数据筛除,仅留下正确、真实的数据,而实现这一目标的一项重要手段就是可重复性度量。可重复性指的是,对某个样本的两次观测或对某个实验的两次重复,所得到的两个结果相互之间一致的可能性的度量。简单的说,如果两次观测或两次实验的两个结果的可重复性高,即认为这个数据本身可靠性高,反之则认为数据可靠性低,有较大的可能是被干扰或污染的数据。因此,一旦估计出了数据的可重复性,即可以此为据筛查掉有问题的数据,从而增强保证了后续步骤的可靠性。在本文中,我们先是介绍了COpula理论的相关内容,再给出了混合Copula的定义并证明了一些相关定理及性质,然后基于混合Copula提出了自适应混合Copula方法。这种自适应混合Copula存在一些独有的优点,如不需要对数据分布的假设、可自行适应数据等。在此基础上,我们构建了一种估计数据可重复性的方法SaMiC,这种方法无需人工对数据分布进行预判,也无需人工调参,即可进行可重复性的度量。随后,我们分别使用模拟数据与真实的生物数据,对我们提出的SaMiC方法进行测试,并与另一种度量可重复性的方法IDR进行了对比。我们从实验结果的角度出发,分析了两种方法各自的实验结果,并结合方法本身的理论基础,综合展示了SaMiC的优越性。