论文部分内容阅读
我国财产保险公司的业务结构决定了机动车辆保险业务在财产保险公司一直占据十分重要的地位。根据我国银行保险监督管理委员会统计数据,2018年及2019年,我国车险业务保费收入增速仅维持在4.5%左右,2018年国内55家产险公司车险保费过亿,合计车险保费约7799亿,合计承保利润却只有24.2亿,同比下降71%,车险占比进入下行通道的概率已经大大提高了。造成近年来车险利润下滑的原因也是多方面的,包括新车市场汽车销量放缓、车险费率改革的不断调整等。从精算定价技术层面来看,定价机制粗糙、保费和风险之间不能精准匹配等也是造成利润增长水平难以维持的原因。车险市场陷入“水深火热”状态,愈发激励各企业提升自主定价能力,实现稳定经营。机动车辆保险(简称车险)的定价模型包括索赔频率模型、索赔金额模型和累积损失模型,在实际应用中,需要根据数据的特点选择不同的模型组合来厘定车险的费率。机器学习算法是近年内逐渐被广为利用的一种预测工具,在很多领域,因使用机器学习算法,使复杂的问题得出的结果更为精确,提高了对于问题解决的准确性。因此,在机器学习广泛应用背景下,其在解决保险索赔的预测中也成为了较好的解决问题方法。作为常规性的数据处理方法,一般包括广义线性回归模型和机器学习模式下的非线性模型,而两类模型在应用中各有利弊。机器学习算法的优点是不依赖于分布假设,当现实的保险索赔数据达不到广义线性模型所要求的数据分布状态假设时,机器学习算法可以成为解决该类问题的有效待解决方案,从而某种程度得以提高保险最终损失预测的准确度。一般情况下,对于规模比较大的样本数据集,广义线性回归模型在拟合优度方面略劣于机器学习算法,并且随着样本数据集规模的增大,机器学习算法的拟合效果优越性越明显。另一方面,多数机器学习算法也存在着自身缺陷,例如时间消耗较多,建模前的特征工程、模型中的超参数选择等存在较多的人工干预,模型存在灵活性的同时也增加了建模难度,模型的过程通常是“黑匣子”状态,缺乏对模型的可解释性。理想状态下,可以考虑在模型筛选过程中进行多种模型结果融合,包括模型结果的加权平均、强模型之间的叠加集成等,以此来辅助验证对于索赔数据预测是否出现误差,同时融合二者优点,提高模型预测精度。大数据背景下,保险公司积极打造坚实的数字化基础,数据打通与算法优化将促成车险定价逻辑的改写。从定价趋势上看,随着车联网技术的不断发展和车险费率改革的不断深化,商业模式不断与技术变革进行融合,机器学习方法可以深入挖掘经营数据信息,释放更多业务价值,提升对费率厘定的合理性、公平性,促进我国车险市场不断规范。所以本文采用国内A财产保险股份有限公司的商业车辆损失保险原始数据集,通过对汽车保险索赔数据探索性分析,结合基于机器学习中集成学习算法中的并行算法(如袋装法Bagging)与串行算法(如极值梯度决策树XGBoost),在传统基于均值的预测模型广义线性回归与机器学习中的集成学习方法之间,进行模型的比较、筛选、优化,并基于XGBoost模型的预测结果对模型特征中风险因子的相对重要性进行排序,为车险的承保、定价和理赔提供参考依据。文章由五部分构成,相互承托,贯彻了机器学习背景下车险定价模型应用的逻辑:第一章节,首先厘清当前保险行业发展困境、政策环境、定价水平等选题背景以及待解决的问题,进一步研究分析国内外相关文献和前沿观点,深入了解当前车险定价方法中索赔频率问题的研究现状,探索机器学习中不同算法对车险定价影响和发展趋势,在此基础上形成文章主要工作框架和研究思路。第二章节,对文章所要研究的机动车辆保险损失频率预测过程中的重要思考点剖析,内容集中在基本的模型形态、损失函数的表示、同类模型之间以及不同特质模型之间模型表现好坏的评判标准,为后文中模型比较、分析提供准备。第三章节,在前文明确索赔频率预测目标后,为了便于模型的选择,先深入了解本文使用的数据集。本文没有使用以往国外相关的经典车险数据集,结合国内大数据背景和保险行业发展,选择了A财产保险股份有限公司车辆损失价值保险的原始数据。通过对数据集的清洗、变量的描述性统计分析、相关性分析等了解数据的特点。对于索赔发生次数的不均衡问题进行不同方法的处理,增强模型选择的合理性,提升模型预测水平。第四章节,本章节是论文的核心部分,结合传统均值回归模型和当前大数据背景下机器学习集成学习算法方法,将样本集进行训练集和验证集的划分,对数据进行回归拟合。在广义线性回归的基础上,对比基于集成学习算法的GBDT、XGBoost、Light GBM算法模型,根据各模型的特点进行理论介绍、特征预处理、参数选择、模型优化等预测能力分析和比较,对模型进行筛选。在模型预测的过程中,尽量减少人工干预,坚持数据驱动,在广义线性回归中,数值变量的分类标准采用回归树来决策,对比行业专家意见的变量分类,模型效果更好。第五章节,通过对第四章节中各模型评价指标的反馈汇总,分析各模型的优缺点已经应用场景,总结了模型筛选的结论,针对机动车辆保险索赔频率预测的定价技术问题,可以进一步拓展完善的相关内容,包括大数据背景下提升数据维度的全面性、模型组合进一步提升预测准确性、提升机器学习算法下模型解释能力等,对文章进一步的拓展。