论文部分内容阅读
多重假设检验是假设检验领域的重要分支。随着生命科学等行业的飞速发展,数据开始以海量的形式出现,原有的单个假设检验已经无法满足现实要求,大规模数据的识别需求催生出了多重检验的概念,并由此衍生出一整套对多重假设检验的方法设计、优良性评价度量标准及相关的改良路径,较好的解决了实际问题。多重检验的核心关注点在于控制两类错误的犯错概率。自上世纪八十年代以来,I类错误的控制指标已由控制FWER转为控制FDR,相应的控制手段也以控制FDR的BH方法为主。在Benjamini与Hochberg(1995)提出的BH方法和FDR成为主流方式后,学者们对其进行了诸多改良尝试,得到了一系列改良后的BH方法和FDR衍生指标。在检验时对P值进行加权能体现不同假设的真实倾向性,只要满足一定的权重设置约束条件,加权P值法就既能够将FDR控制在给定水平,也能够提升检验功效。由于多重检验与实际学科中的应用紧密相关,具体学科知识可以提供相当多的先验信息,根据先验信息常可以将假设划分到不同的分组中,分组后进行加权检验亦可提高功效,Hu、Zhao和Zhou(2010)利用先验信息进行分组和P值加权的方法,根据每个组的真实原假设比例来控制FDR,并实现了比经典BH方法更高的检验功效,也证明了加权与分组的有效性。在实际情况中,并非每个多重检验问题都可以得到足够的先验信息,由于研究问题的未知性甚至可能完全没有先验信息。为了避免因为缺乏先验信息无法分组检验而导致检验功效下降,我们考虑采用聚类的方式进行分组。由于对于所研究的多个样本,聚类方法是依据样本之间的相似度,把相似程度比较大的某些样本聚合为一个个类,从而完成分组,因此无需事先给定任何关于样本的信息。采用聚类方式分组可在无先验信息的情况下得到分组。本文主要研究的即为应用聚类方法分组的优化加权多重假设检验问题。我们发现,在经典BH方法的基础上,当无先验信息时,运用聚类方法进行分组并进一步优化权重的BH方法,可有效控制FDR,且较经典BH方法提高了检验功效,该方法具有较好的稳健性。