论文部分内容阅读
一、绪论
未决赔款数据作为准备金估计的基础资源,只有得到精确的准备金估计值,才能准确反映保险公司当前的财务和经营状况,为保险公司的运营决策提供合理依据。
在非寿险精算实务中,异常赔款额极有可能出现,需要采取合理的处理方法调整或保留异常赔款额,提高索赔准备金估计的准确性。本文将尝试使用主成分分析法进行识别异常值,以得到更为科学合理的准备金估计值。
二、异常值
(一)异常值的概述
异常值是在数据集合中显著偏离其他数据点或既定模型的数据点。統计结果常因异常值的存在而与准确结果产生偏离,也会给后续分析带来麻烦。对于这些数据,人们经常不加区分一律剔除,这样有意义的数据也极有可能被剔除,从而影响了最终结果的科学性和合理性。因此,我们应该找出原因,使取舍数据有更加充分的依据。但若不能找出原因,就不能轻易保留,也不能随意舍弃,而应该进行统计检验,判明该数据是否为异常值。因此异常值的确定需要遵循一定的原则。
对于工作人员的操作失误等造成的异常数据,应该及时修正或剔除,。而数据本身变异性造成的异常值,应该谨慎处理,不应笼统的一并剔除,需要有实际工作者的参与才可以进一步处理。所以,将异常数据一并处理可能会错过一些重要信息,使统计推断结果与实际情况发生偏离。
没有一种检验处理方法适用于所有情况,在非寿险精算领域中,对异常值问题的研究更是少之又少。我们应该探究异常值对不同模型准备金估计的影响,尝试建立更加有效的准备金估计模型以查找并规避原始数据中的异常值,为保险公司的运营决策提供参考。
(二)异常值的处理方法
在非寿险精算领域,如果忽视原始赔款数据中出现的异常值,可能会导致保险公司预留错误数据量的保证金,从而增加保险公司的运营风险,降低保险公司的竞争力,影响公司的经营状况。
常常采用以下几种方法对异常值进行处理。第一,直接将该异常值删除。该方法简单易行但很容易造成样本量不足,使统计模型不稳定。
第二,暂且保留,结合整体模型进行综合分析。如果观测到的异常值对整个模型而言,没有很明显时应该进行综合分析,建议保留。
如果样本量很小,可以考虑使用均值或其它统计量取代。用均值取代异常值,虽补充了样本,但丢失了样本“特色”。
将异常值视为缺失值,利用统计模型填补。这个方法要视异常值的特点而定。
第三,使用抽样技术或模拟技术,接受更合理的标准误等信息。
本文将尝试使用主成分分析法进行识别异常值。
三、诊断并调整异常值
本节将介绍在链梯法中尝试使用主成分分析法和箱线图进行识别异常值。
下面运用传统的主成分分析法来诊断进展年1是否存在异常值。
首先运用SPSS进行主成分分析,将标准化后的数据选入Variables,结果如图1所示。
由图1可看出来,进展年1与其他进展年标准差相差很大,因此进展年1存在异常值。
再运用SPSS软件再对第二列画箱图,做图表分析,可以看出,进展年1的数据中的异常值是60000。
最后,进行调整异常值。
当诊断出进展年0存在异常残差时,我们把对应的赔款额当做异常值进行调整。具体方法如下,如果相应的进展年1的数据也被诊断为异常值,就应该采用进展年0中所有数据的中位数来代替该异常值。也可以数据本身的特征,采用进展年0中除该异常值以外的数据的均值来代替该异常值。如果相应的进展年1的增量赔款数据没有被诊断为异常值,那么进展年0的异常值可以用进展年1的数据与基于增量计算的稳健进展因子做商来代替。
用公式表示如下:如果进展年0存在异常残差,假设为:。
第一,若是异常值,则:
(1)
第二,若不是异常值,则:
(2)
(一)诊断并调整其它进展年的异常值
若要查找其他进展年的异常值,我们仍需借助残差,但拟合值的获得通过另外一种方式。下面给出诊断并调整其他进展年异常值的步骤:
第一,通过上文我们已经知道,进展年0已经不存在异常值,所以其它进展年的进展因子可以基于进展年0的赔款额进行计算,即:
(3)
第二,将各列的进展因子乘以第一列数据,计算拟合的上三角赔款额:
(4)
此时,一个异常数据只对它对应的残差产生影响。所有第一列的的残差均为0,第一列可能的异常值也是通过这些残差无法获得的。
第三,类似式(4)计算残差值:
(5)
异常残差由除进展年0外所有残差的中位数代替,最后的估计值由这些调整后的残差反推得到,用表示。
第四,由新数据重新估计准备金。
由最终得到的稳健增量未决赔款数据,采用传统链梯法估计准备金。需要注意,采用以上方法,流量表角上的数据和若出现异常值是无法诊断的。因为是最近事故年发生的第一个赔款额,因此很难确定该值是否为异常值,同样,是进展年J的唯一增量赔款额,也无法检查是否为异常值。
第五,对调整后的稳健增量赔款数据,应用传统链梯法评估未决赔款准备金。
四、结论
通过以上分析,我们可以发现在含有异常值的情况下,使用主成分分析法和箱线图可以有效地进行识别异常值,从而减小异常值对准备金估计的影响。
参考文献
[1]段白鸽,张连增.考虑离群值的稳健链梯法[J].数理统计与管理,2015,06:989-1006.
[2]段白鸽.非寿险随机性索赔准备金评估统计模型与方法[D].南开大学,2013.
[3]蒋青松,李保东,非寿险准备金及其评估方法[J].经济研究导刊,2011,21:84-85.
[4]杨竞,童祯恭,刘玉哲.SPSS软件对饮用水水质进行主成分分析评价的运用[J].环境科学与技术,2011,07:171-174.
未决赔款数据作为准备金估计的基础资源,只有得到精确的准备金估计值,才能准确反映保险公司当前的财务和经营状况,为保险公司的运营决策提供合理依据。
在非寿险精算实务中,异常赔款额极有可能出现,需要采取合理的处理方法调整或保留异常赔款额,提高索赔准备金估计的准确性。本文将尝试使用主成分分析法进行识别异常值,以得到更为科学合理的准备金估计值。
二、异常值
(一)异常值的概述
异常值是在数据集合中显著偏离其他数据点或既定模型的数据点。統计结果常因异常值的存在而与准确结果产生偏离,也会给后续分析带来麻烦。对于这些数据,人们经常不加区分一律剔除,这样有意义的数据也极有可能被剔除,从而影响了最终结果的科学性和合理性。因此,我们应该找出原因,使取舍数据有更加充分的依据。但若不能找出原因,就不能轻易保留,也不能随意舍弃,而应该进行统计检验,判明该数据是否为异常值。因此异常值的确定需要遵循一定的原则。
对于工作人员的操作失误等造成的异常数据,应该及时修正或剔除,。而数据本身变异性造成的异常值,应该谨慎处理,不应笼统的一并剔除,需要有实际工作者的参与才可以进一步处理。所以,将异常数据一并处理可能会错过一些重要信息,使统计推断结果与实际情况发生偏离。
没有一种检验处理方法适用于所有情况,在非寿险精算领域中,对异常值问题的研究更是少之又少。我们应该探究异常值对不同模型准备金估计的影响,尝试建立更加有效的准备金估计模型以查找并规避原始数据中的异常值,为保险公司的运营决策提供参考。
(二)异常值的处理方法
在非寿险精算领域,如果忽视原始赔款数据中出现的异常值,可能会导致保险公司预留错误数据量的保证金,从而增加保险公司的运营风险,降低保险公司的竞争力,影响公司的经营状况。
常常采用以下几种方法对异常值进行处理。第一,直接将该异常值删除。该方法简单易行但很容易造成样本量不足,使统计模型不稳定。
第二,暂且保留,结合整体模型进行综合分析。如果观测到的异常值对整个模型而言,没有很明显时应该进行综合分析,建议保留。
如果样本量很小,可以考虑使用均值或其它统计量取代。用均值取代异常值,虽补充了样本,但丢失了样本“特色”。
将异常值视为缺失值,利用统计模型填补。这个方法要视异常值的特点而定。
第三,使用抽样技术或模拟技术,接受更合理的标准误等信息。
本文将尝试使用主成分分析法进行识别异常值。
三、诊断并调整异常值
本节将介绍在链梯法中尝试使用主成分分析法和箱线图进行识别异常值。
下面运用传统的主成分分析法来诊断进展年1是否存在异常值。
首先运用SPSS进行主成分分析,将标准化后的数据选入Variables,结果如图1所示。
由图1可看出来,进展年1与其他进展年标准差相差很大,因此进展年1存在异常值。
再运用SPSS软件再对第二列画箱图,做图表分析,可以看出,进展年1的数据中的异常值是60000。
最后,进行调整异常值。
当诊断出进展年0存在异常残差时,我们把对应的赔款额当做异常值进行调整。具体方法如下,如果相应的进展年1的数据也被诊断为异常值,就应该采用进展年0中所有数据的中位数来代替该异常值。也可以数据本身的特征,采用进展年0中除该异常值以外的数据的均值来代替该异常值。如果相应的进展年1的增量赔款数据没有被诊断为异常值,那么进展年0的异常值可以用进展年1的数据与基于增量计算的稳健进展因子做商来代替。
用公式表示如下:如果进展年0存在异常残差,假设为:。
第一,若是异常值,则:
(1)
第二,若不是异常值,则:
(2)
(一)诊断并调整其它进展年的异常值
若要查找其他进展年的异常值,我们仍需借助残差,但拟合值的获得通过另外一种方式。下面给出诊断并调整其他进展年异常值的步骤:
第一,通过上文我们已经知道,进展年0已经不存在异常值,所以其它进展年的进展因子可以基于进展年0的赔款额进行计算,即:
(3)
第二,将各列的进展因子乘以第一列数据,计算拟合的上三角赔款额:
(4)
此时,一个异常数据只对它对应的残差产生影响。所有第一列的的残差均为0,第一列可能的异常值也是通过这些残差无法获得的。
第三,类似式(4)计算残差值:
(5)
异常残差由除进展年0外所有残差的中位数代替,最后的估计值由这些调整后的残差反推得到,用表示。
第四,由新数据重新估计准备金。
由最终得到的稳健增量未决赔款数据,采用传统链梯法估计准备金。需要注意,采用以上方法,流量表角上的数据和若出现异常值是无法诊断的。因为是最近事故年发生的第一个赔款额,因此很难确定该值是否为异常值,同样,是进展年J的唯一增量赔款额,也无法检查是否为异常值。
第五,对调整后的稳健增量赔款数据,应用传统链梯法评估未决赔款准备金。
四、结论
通过以上分析,我们可以发现在含有异常值的情况下,使用主成分分析法和箱线图可以有效地进行识别异常值,从而减小异常值对准备金估计的影响。
参考文献
[1]段白鸽,张连增.考虑离群值的稳健链梯法[J].数理统计与管理,2015,06:989-1006.
[2]段白鸽.非寿险随机性索赔准备金评估统计模型与方法[D].南开大学,2013.
[3]蒋青松,李保东,非寿险准备金及其评估方法[J].经济研究导刊,2011,21:84-85.
[4]杨竞,童祯恭,刘玉哲.SPSS软件对饮用水水质进行主成分分析评价的运用[J].环境科学与技术,2011,07:171-174.