论文部分内容阅读
多元非均衡数据是研究中常见的一种数据形态。尤其是在稀有疾病分析、质量监控等领域,不同组别的样本量存在明显差别的情况时有发生,而目前针对这种数据的统计方法较少,且主要集中于分类问题。本文提出了一种应用于多元数据同分布检验的非参数方法,该方法具有很多良好的性质,如无需提前假设分布、有效性、相合性等。该方法不仅在一般情形下具有较高的功效,针对非均衡数据尤其有效。文章证明了当较小的样本量固定时,随着样本量比例的增加,检验的功效呈上升趋势。蒙特卡洛模拟结果显示,该方法在多种情形下均可在控制第一类错误的前提下,检测出不同分布之间的差异,即使两者之间差异极为微小。作为其他统计学习方法的基础,上述良好性质和效果使得该方法易于被推广至广泛的应用领域。