论文部分内容阅读
模型性能的评价是统计机器学习中的关键一步,它的好坏直接影响到机器学习的许多其它环节,泛化误差是最常用且最重要的模型性能评价标准,目前,泛化误差常用各种形式的交叉验证方法来估计。本文主要针对分类学习算法,从模型选择、方差分析、方差估计、假设检验等几个角度对新提出的组块3×2交叉验证方法进行了初步的研究,并取得了较好的结论。 组块3×2交叉验证的两大特点是折数低、对数据集进行均匀切分,因此,我们首先从折数的选择和数据集的切分方式对交叉验证方法进行了综合分析,结合已有的研究成果,我们判断组块3×2交叉验证在这两个方面很有优势。 我们将组块3×2交叉验证应用于分类学习算法的模型选择任务中,考虑到组块3×2交叉验证的特点,以及影响交叉验证模型选择方法性能的各种因素,我们断定组块3×2交叉验证要优于常用的5折、10折交叉验证。实验结果表明,特征取值连续时组块3×2交叉验证选到真模型的概率要一致的大于5折、10折交叉验证,且最多能大出近25个百分点。特征取值离散时虽有个别例外情况,但10折交叉验证比组块3×2交叉验证的优势并不明显,且后者与前者相比在计算复杂度方面有很大的优势,因此判断组块3×2交叉验证更适用于分类学习算法的模型选择任务。 当对比分类学习算法的性能时,需要从统计上对算法的泛化误差做显著性检验,而这需要有效的方差估计,因此,我们首先从理论上对组块3×2交叉验证的方差进行了分析,得到了其结构图,在此基础上给出了一个保守估计方法,并将其应用于泛化误差的假设检验实验中。实验结果表明,基于组块3×2交叉验证的t检验比其它常用的检验有更大的功效,即拥有更小的犯第一类错误的概率和更大的势。 自然语言处理中的许多任务都可看作是分类问题,其分类算法性能最常用的评价指标是准确率、召回率、F-测度值,只要这三个指标服从或近似服从正态分布,则上述关于泛化误差的研究结论都可应用于基于这三个指标的统计推断。已有研究结果表明,准确率和召回率服从贝塔分布,而贝塔分布参数值较大时近似服从正态分布。根据此结论及F-测度值与准确率和召回率的关系,我们通过模拟实验证明了F-测度值也近似服从正态分布。