论文部分内容阅读
接收机工作特性(Receiver Operating Characteristic,以下简称ROC)是在二战时期首先被开发用于分析科学和工程领域中二类问题统计模型的框架。从本质来看,ROC分析属于有监督的统计模型性能分析方法。在使用该方法之前,首先需获得统计模型对两类样本的输出值或其对应的分布形状参数。然而,近些年来,随着科学技术水平的迅猛发展和人们需求的日益剧增,有序的三类乃至多类,即三(多)个类别间存在不同等级或程度关系的问题在实际应用中屡见不鲜,尤其在机器学习,生物医学以及信号处理等领域,传统的ROC分析很难满足这些问题的分析需求。三(多)类ROC分析也是一种需要事先获取统计模型输出的有监督分析方法,但是不同于只适用在二类问题中权衡真阳性率(True Positive Rate)和假阳性率(False Positive Rate)的ROC曲线,三(多)类ROC分析是通过两(多)个不同门限决定的多组正确分类比例(True Class Fraction,以下简称TCF)在空间中构成的一个(超)曲面来表征分类器的。作为ROC曲线下的面积(Area Under the Curve,以下简称AUC)在高维空间的推广,ROC(超)曲面下的体积((Hyper)Volume Under the Surface,以下简称(H)VUS)通常用于评估三(多)类统计模型的性能,即在特定的任务中,统计模型能够准确区分或检测样本中各个类别的能力。从可靠性和鲁棒性层面上考虑,该类指标已经被广泛认为优于准确率等传统的性能评价指标。但是,在估算该类指标的问题上,大部分研究只是集中在连续样本条件下估算AUC的问题上,而鲜有对离散样本条件下AUC估计值及其方差的估算,连续或离散样本条件下VUS估计值及其方差的估算等问题进行研究。仅有的一些算法都存在运算时间复杂度高和有偏差等缺陷。除此之外,在对(H)VUS的估计值作零假设检验时,我们的研究表明,小样本条件下(H)VUS估计值的零分布与正态分布相差较远,现在较为流行的使用正态分布作为零分布的方法很大程度上会影响最后的检验准确性。
本文将以非参数方法为主要分析手段,综合使用数值分析、数理统计以及组合数学等几门学科知识,深入地对有序多类ROC分析进行理论研究和算法设计,提出了一个相对完整的有序多类ROC分析体系。本论文的主要贡献总结如下:
1.对于二分类问题,基于曼惠特尼U统计量(Mann-Whitney U Statistic)与AUC的等价关系,推导出离散样本条件下AUC估计值方差的无偏估计量,并用多个基础事件的线性组合表示推导得到的统计量,然后运用动态规划思想分别计算这些基础事件,使得所导出的统计量计算时间复杂度从原始表达式的三次方量级降至线性对数量级。
2.对于三类问题,1)推导出输入样本连续条件下VUS估计值方差的无偏估计表达式,并将其等价重写成可以用动态规划算法快速计算的基础事件的线性组合形式,使其计算时间复杂度由原来的五次方量级降低至线性对数量级,仿真实验证明我们提出的算法在无偏性和运算效率上都要优于当前最先进的(state-of-the-art,以下简称SOTA)算法。2)提出了基于秩的VUS快速无偏点估计方法,进一步完善了关于有序三类VUS估计值精确零分布的递归算法,以及大样本条件下VUS估计值所趋向正态分布的固定均值和精确方差表达式的问题。蒙特卡洛仿真和真实数据集实验证明了理论和算法的有效性。3)推导了样本离散条件下VUS估计值方差的无偏估计表达式,并使用前述的改写方式和计算结构来大幅提高它的运算效率,填补了离散ROC分析中有关该类问题的空白。
3.对于多类问题,1)提出了连续样本输入时HVUS估计值方差的无偏估计表达式,并用数学归纳法进行证明。基于简单事件的线性组合与HVUS估计值方差估计量之间的等价关系,结合Dyck路径的性质改写上述统计量,使之满足动态规划计算结构的使用条件,从而达到优化算法的目的。通过与SOTA算法在运算效率方面的仿真对比,得到了使用这两个算法的临界条件。2)提出零假设条件下计算HVUS估计值精确分布的递归算法,基于HVUS估计值在大样本条件下的渐近正态性,提出了使用具有固定均值和准确方差计算方法的正态分布来近似替代HVUS估计值零分布的方法,当样本量足够大时,该正态分布是一种行之有效的替代方法。
鉴于ROC分析在大量领域,如机器学习、生物医学以及军事科技等有着举足轻重的理论地位和日益广阔的应用前景,上述问题的探讨与解决对有序ROC分析理论的完善和相关实践生产有着重要的现实意义和指导作用。
本文将以非参数方法为主要分析手段,综合使用数值分析、数理统计以及组合数学等几门学科知识,深入地对有序多类ROC分析进行理论研究和算法设计,提出了一个相对完整的有序多类ROC分析体系。本论文的主要贡献总结如下:
1.对于二分类问题,基于曼惠特尼U统计量(Mann-Whitney U Statistic)与AUC的等价关系,推导出离散样本条件下AUC估计值方差的无偏估计量,并用多个基础事件的线性组合表示推导得到的统计量,然后运用动态规划思想分别计算这些基础事件,使得所导出的统计量计算时间复杂度从原始表达式的三次方量级降至线性对数量级。
2.对于三类问题,1)推导出输入样本连续条件下VUS估计值方差的无偏估计表达式,并将其等价重写成可以用动态规划算法快速计算的基础事件的线性组合形式,使其计算时间复杂度由原来的五次方量级降低至线性对数量级,仿真实验证明我们提出的算法在无偏性和运算效率上都要优于当前最先进的(state-of-the-art,以下简称SOTA)算法。2)提出了基于秩的VUS快速无偏点估计方法,进一步完善了关于有序三类VUS估计值精确零分布的递归算法,以及大样本条件下VUS估计值所趋向正态分布的固定均值和精确方差表达式的问题。蒙特卡洛仿真和真实数据集实验证明了理论和算法的有效性。3)推导了样本离散条件下VUS估计值方差的无偏估计表达式,并使用前述的改写方式和计算结构来大幅提高它的运算效率,填补了离散ROC分析中有关该类问题的空白。
3.对于多类问题,1)提出了连续样本输入时HVUS估计值方差的无偏估计表达式,并用数学归纳法进行证明。基于简单事件的线性组合与HVUS估计值方差估计量之间的等价关系,结合Dyck路径的性质改写上述统计量,使之满足动态规划计算结构的使用条件,从而达到优化算法的目的。通过与SOTA算法在运算效率方面的仿真对比,得到了使用这两个算法的临界条件。2)提出零假设条件下计算HVUS估计值精确分布的递归算法,基于HVUS估计值在大样本条件下的渐近正态性,提出了使用具有固定均值和准确方差计算方法的正态分布来近似替代HVUS估计值零分布的方法,当样本量足够大时,该正态分布是一种行之有效的替代方法。
鉴于ROC分析在大量领域,如机器学习、生物医学以及军事科技等有着举足轻重的理论地位和日益广阔的应用前景,上述问题的探讨与解决对有序ROC分析理论的完善和相关实践生产有着重要的现实意义和指导作用。