论文部分内容阅读
随着我国人民保险意识的逐步提升,国家加大了对保险市场的政策支持力度,保险公司迎来了更多的发展机遇,同时也面临着全新的挑战。如何在竞争激烈开放的环境中获得竞争优势和持续成长能力成为保险公司经营管理的核心问题。续保数据对于保险公司来说十分重要,续保率是决定财产保险公司经营业绩的一个重要指标。保险公司可通过续保数据对公司业务进行调整,以提高用户对于公司业务的信赖以及粘性。本文主要利用SPSS软件对某保险公司的续保数据进行分析,并根据分析结果给出建议。
分析工具
SPSS(Statistical Product and Service solutions),称为统计产品与服务解决方案。2000年以前称为“社会科学统计软件包”(Statistical Package for the Social Science),是IBM公司推出的能够提供统计学分析运算、数据挖掘、预测分析和决策支持任务的一种集成化计算机数据处理应用软件。EXCEL,在EXCEL中,数据的计算与处理都可以通过公式工具,实现自动化处理,在数据处理工作中呈现出极大的便捷性。本文首先使用excel对数据进行预处理,然后利用SPSS将处理后的数据导入,进行分析。
分析思路
以某保险公司的续保数据为研究对象,先利用EXCEL对这些数据进行预处理,主要是删除掉一些脏数据。再用SPSS软件对其21万条数据做分析。针对性别,过去三年年年收入,总保费,保额等运用独立样本T检验、区间估计、单因素方差、散点图等方法分析该数据得出结论,提出建议。
数据来源
数据来源于某保险公司。续保的这份数据共有21万条,16个字段,分别记录了机构、险种、投保时间、缴费、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、婚姻、过去三年平均年收入、教育程度、职业、家庭人口。其中婚姻状态中的D是离婚、S是单身、M是结婚、R是再婚、W是丧偶、X是缺失。总保费是指投保人一共需要向保险公司缴纳的总额,保额是指保险公司理赔的最高额度。对于过去三年的平均年收入做了脱敏处理,此数据并非真实,可能是*0.5或缩小了其他的倍数(一般为降低收入)但总体趋势相同。
数据清洗
因为该数据集数据量比较大可能会有一定的脏数据会对我们的分析产生影响。因此我通过运用excel工具的定位条件判断是否有空值并进行删除。通过对年龄进行升序排序,运用高级筛选功能对每一列的数据进行查看查找出不合理的数据值做删除处理,比如年龄为1,婴幼儿,年收入却为30000元等等。通过简单的数据清洗后可以从数据中提取出更有意义的信息。
性别与过去三年年收入的关系
通过独立样本T检验探究性别与于过去三年年收入关系分析。由组统计得: 男性的个案数为109361,平均值为14009.4023,标准偏差为47234.18995,标准误差平均值为142.83191。女性的个案数为109117,平均值为13596.5685,标准偏差为58153.57646,标准误差平均值为176.04765。由独立样本检验中可得显著性为0.069,大于0.05,则方差齐。显著性>0.05,则性别与过去三年年收入在0.05显著水平下不呈现差异。研究采用独立样本t检验判断性别与过去三年年收入的关系,结果显示性别与过去三年年收入在0.05显著性水平下不呈现差异,进一步比较均值发现,男性过去三年年收入平均值是大于女性过去三年年收入的,不过相差不多。所以性别与过去三年年收入关系并不大。
婚姻状况与总保费的关系
采用区间估计的数据方法分析婚姻状况与总保费的关系。对于婚姻状况的不同,是否会影响总保费。针对这一问题,采用区间估计方法分析,由于这是一个比较分散的数据,所以剔除500000以上的极大值来重新分析该箱型图。
D(离婚)的总保费整体是在一个偏低的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为密集,说明总保费较高的人差距是不大的。M(结婚)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。S(单身)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。W(丧偶)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为密集,说明总保费较高的人差距是不大的。X(缺失)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。
通过区间估计的方法,说明了婚姻状况与总保费之间有显著差异。M(已婚)和X(缺失)的总体的总保费较高,而D(离婚)和R(再婚)以及W(丧偶)的总保费偏低。
年龄与保额的关系
利用单因素方差分析探究不同年龄段与保额之间的关系,首先对年龄、保额和进行描述统计,发现年龄跨度比较大,因而需对年龄进行分段。分段依据为,18岁以下为一组,18-34岁为一组,35-59岁为一组,60岁以上为一组。
在方差齐性检验下,发现显著性值小于0.05(置信度为95%)。因而,方差不具有齐次性,所以要拒绝原假设,在检验多重性比较中选择塔姆黑尼T2作为判断参考依据。同时在方差分析信息表中,对不同年龄段的保额水平是否有显著性差异进行分析。发现显著性值都小小于0.05。因而拒绝原假设:不同年龄段的保额水平没有显著性差异,因此所以至少有两种不同年龄段的保额水平是有显著性差异的。 在组1中,其他的年龄组的显著性值都小于0.05,说明有显著性差异,表示其他年龄段的保额水平高于年龄在18岁以下的。在组2中,其他组的显著性值都小于0.05,表示有显著性差异,既是为年龄在18-34岁的保额水平高于其他年龄阶段的。在年龄组3中,其他组的显著性值小于0.05,有显著性差异。通过查看平均差值得到,组3大于组1、4、小于组2。即是说年龄组35-59岁的保额水平高于年龄60岁以上以及18岁以下的,小于18-34岁的。在年龄组4中,其他组的显著性值都小于0.05,表示有显著性差异。说明年龄高于60岁以上的保额水平低于年龄段在18-34岁、35-59岁的,大于18岁以下的。
综上所述,根据年龄的段来看,年龄在18-34岁的保额是偏高于其余年龄段的,年龄在60岁以上的保额是偏低于其余年齡段的。
过去三年的平均收入与总保费的关系
利用散点图对过去三年的平均收入与总保费的关系进行分析,点击“散点图”,将总保费放入y轴,过去三年平均年收入放入x轴,绘制过去三年平均年收入与总保费的散点图,发现数据集中在100000内(总保费),200000内(过去三年平均年收入)。
将范围缩小以后可以看到其实总保费主要集中在20000以下,特别是10000以下;而过去三年平均年收入也集中在100000以下,特别是60000以下。发现并不是过去三年平均年收入越高,总保费就越高,大部分用户在总保费上不会投入大量的金钱。
结 论
第一,由独立样本t检验得出性别与过去三年年收入没有显著关系,通过均值看到男性略高于女性,但差距并不大。第二,由区间估计得出婚姻状况对总保费有显著的影响,M(结婚)和X(缺失)的总体的总保费较高。第三,由单因素方差分析得出不同年龄段的保额水平有显著性差异,年龄在18-34岁的保费是偏高于其余年龄段的,年龄在60岁以上的保费是偏低于其余年龄段的。第四,由散点图得出用户在总保费的金钱投入时, 并不是依据年收入来投入的,大部分用户都集中在10000以内。
建 议
第一,已婚的群体更加注重于投入金钱在保险上,保险公司可针对已婚群体进行宣传,策划一些更加适合已婚群体的保险方案,拉入更多已婚客户购买保险,同时更加注重已婚客户的需求,提高他们的续保率。第二,将客户划分为不同的年龄段,根据年龄段提供不同的保险套餐以及优惠政策,而18-34这个年龄段更加注重于保险的保额,也就是希望得到更多的赔偿,这方面一般是重疾险,可以以此为宣传吸引18-24这个年龄段的购买,也可以稳固住已有客户。第三,可以多设置一些保费较低的套餐,无论什么收入群体都更乐意选择保费较低的套餐,可以根据某些特定的需求设置一些保费较低的保险套餐。
[本文系基金项目:本论文受四川大学锦城学院青年教师科协资助。]
(四川大学锦城学院)
研究思路
分析工具
SPSS(Statistical Product and Service solutions),称为统计产品与服务解决方案。2000年以前称为“社会科学统计软件包”(Statistical Package for the Social Science),是IBM公司推出的能够提供统计学分析运算、数据挖掘、预测分析和决策支持任务的一种集成化计算机数据处理应用软件。EXCEL,在EXCEL中,数据的计算与处理都可以通过公式工具,实现自动化处理,在数据处理工作中呈现出极大的便捷性。本文首先使用excel对数据进行预处理,然后利用SPSS将处理后的数据导入,进行分析。
分析思路
以某保险公司的续保数据为研究对象,先利用EXCEL对这些数据进行预处理,主要是删除掉一些脏数据。再用SPSS软件对其21万条数据做分析。针对性别,过去三年年年收入,总保费,保额等运用独立样本T检验、区间估计、单因素方差、散点图等方法分析该数据得出结论,提出建议。
數据说明
数据来源
数据来源于某保险公司。续保的这份数据共有21万条,16个字段,分别记录了机构、险种、投保时间、缴费、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、婚姻、过去三年平均年收入、教育程度、职业、家庭人口。其中婚姻状态中的D是离婚、S是单身、M是结婚、R是再婚、W是丧偶、X是缺失。总保费是指投保人一共需要向保险公司缴纳的总额,保额是指保险公司理赔的最高额度。对于过去三年的平均年收入做了脱敏处理,此数据并非真实,可能是*0.5或缩小了其他的倍数(一般为降低收入)但总体趋势相同。
数据清洗
因为该数据集数据量比较大可能会有一定的脏数据会对我们的分析产生影响。因此我通过运用excel工具的定位条件判断是否有空值并进行删除。通过对年龄进行升序排序,运用高级筛选功能对每一列的数据进行查看查找出不合理的数据值做删除处理,比如年龄为1,婴幼儿,年收入却为30000元等等。通过简单的数据清洗后可以从数据中提取出更有意义的信息。
数据分析
性别与过去三年年收入的关系
通过独立样本T检验探究性别与于过去三年年收入关系分析。由组统计得: 男性的个案数为109361,平均值为14009.4023,标准偏差为47234.18995,标准误差平均值为142.83191。女性的个案数为109117,平均值为13596.5685,标准偏差为58153.57646,标准误差平均值为176.04765。由独立样本检验中可得显著性为0.069,大于0.05,则方差齐。显著性>0.05,则性别与过去三年年收入在0.05显著水平下不呈现差异。研究采用独立样本t检验判断性别与过去三年年收入的关系,结果显示性别与过去三年年收入在0.05显著性水平下不呈现差异,进一步比较均值发现,男性过去三年年收入平均值是大于女性过去三年年收入的,不过相差不多。所以性别与过去三年年收入关系并不大。
婚姻状况与总保费的关系
采用区间估计的数据方法分析婚姻状况与总保费的关系。对于婚姻状况的不同,是否会影响总保费。针对这一问题,采用区间估计方法分析,由于这是一个比较分散的数据,所以剔除500000以上的极大值来重新分析该箱型图。
D(离婚)的总保费整体是在一个偏低的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为密集,说明总保费较高的人差距是不大的。M(结婚)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。S(单身)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。W(丧偶)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为密集,说明总保费较高的人差距是不大的。X(缺失)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。
通过区间估计的方法,说明了婚姻状况与总保费之间有显著差异。M(已婚)和X(缺失)的总体的总保费较高,而D(离婚)和R(再婚)以及W(丧偶)的总保费偏低。
年龄与保额的关系
利用单因素方差分析探究不同年龄段与保额之间的关系,首先对年龄、保额和进行描述统计,发现年龄跨度比较大,因而需对年龄进行分段。分段依据为,18岁以下为一组,18-34岁为一组,35-59岁为一组,60岁以上为一组。
在方差齐性检验下,发现显著性值小于0.05(置信度为95%)。因而,方差不具有齐次性,所以要拒绝原假设,在检验多重性比较中选择塔姆黑尼T2作为判断参考依据。同时在方差分析信息表中,对不同年龄段的保额水平是否有显著性差异进行分析。发现显著性值都小小于0.05。因而拒绝原假设:不同年龄段的保额水平没有显著性差异,因此所以至少有两种不同年龄段的保额水平是有显著性差异的。 在组1中,其他的年龄组的显著性值都小于0.05,说明有显著性差异,表示其他年龄段的保额水平高于年龄在18岁以下的。在组2中,其他组的显著性值都小于0.05,表示有显著性差异,既是为年龄在18-34岁的保额水平高于其他年龄阶段的。在年龄组3中,其他组的显著性值小于0.05,有显著性差异。通过查看平均差值得到,组3大于组1、4、小于组2。即是说年龄组35-59岁的保额水平高于年龄60岁以上以及18岁以下的,小于18-34岁的。在年龄组4中,其他组的显著性值都小于0.05,表示有显著性差异。说明年龄高于60岁以上的保额水平低于年龄段在18-34岁、35-59岁的,大于18岁以下的。
综上所述,根据年龄的段来看,年龄在18-34岁的保额是偏高于其余年龄段的,年龄在60岁以上的保额是偏低于其余年齡段的。
过去三年的平均收入与总保费的关系
利用散点图对过去三年的平均收入与总保费的关系进行分析,点击“散点图”,将总保费放入y轴,过去三年平均年收入放入x轴,绘制过去三年平均年收入与总保费的散点图,发现数据集中在100000内(总保费),200000内(过去三年平均年收入)。
将范围缩小以后可以看到其实总保费主要集中在20000以下,特别是10000以下;而过去三年平均年收入也集中在100000以下,特别是60000以下。发现并不是过去三年平均年收入越高,总保费就越高,大部分用户在总保费上不会投入大量的金钱。
结论与建议
结 论
第一,由独立样本t检验得出性别与过去三年年收入没有显著关系,通过均值看到男性略高于女性,但差距并不大。第二,由区间估计得出婚姻状况对总保费有显著的影响,M(结婚)和X(缺失)的总体的总保费较高。第三,由单因素方差分析得出不同年龄段的保额水平有显著性差异,年龄在18-34岁的保费是偏高于其余年龄段的,年龄在60岁以上的保费是偏低于其余年龄段的。第四,由散点图得出用户在总保费的金钱投入时, 并不是依据年收入来投入的,大部分用户都集中在10000以内。
建 议
第一,已婚的群体更加注重于投入金钱在保险上,保险公司可针对已婚群体进行宣传,策划一些更加适合已婚群体的保险方案,拉入更多已婚客户购买保险,同时更加注重已婚客户的需求,提高他们的续保率。第二,将客户划分为不同的年龄段,根据年龄段提供不同的保险套餐以及优惠政策,而18-34这个年龄段更加注重于保险的保额,也就是希望得到更多的赔偿,这方面一般是重疾险,可以以此为宣传吸引18-24这个年龄段的购买,也可以稳固住已有客户。第三,可以多设置一些保费较低的套餐,无论什么收入群体都更乐意选择保费较低的套餐,可以根据某些特定的需求设置一些保费较低的保险套餐。
[本文系基金项目:本论文受四川大学锦城学院青年教师科协资助。]
(四川大学锦城学院)