基于ARIMA-SVM的车险索赔次数预测

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:hua50776007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国的保险市场较国外起步与发展较晚,但经过二十多年的发展,已经逐渐走向成熟。近几年,随着经济的快速发展,保险逐步被分为寿险和非寿险两个大类。机动车辆保险作为非寿险中的一个重要的组成部分,而且也是非寿险中相对年轻的险种,极具发展潜力。随着私家车的数量逐渐增加,购买机动车辆保险的人也越来越多,作为购买商品的车主,都希望买到极具性价比的机动车辆保险。而对于出售这种商品的保险公司,也都希望定出既能实现保费收入规模又能兼具市场竞争的价格。在机动车辆保险定价中,机动车辆保险索赔次数的历史经验和未来索赔的预测都是重要的定价因素。对保险公司来讲能够了解掌握机动车辆保险的索赔次数的变化趋势,从而制定相关的定价策略,定出合理的价格是公司收益的保障。关于机动车辆索赔次数的研究也有很多,传统的经典索赔次数分布便是其中之一。本文同样介绍了传统的经典索赔次数分布中的泊松分布、负二项分布和混合泊松分布,并详细介绍了这几类分布在处理索赔次数拟合中的原理和步骤,同时也使用泊松分布、负二项分布和混合泊松分布对某财产保险公司某分公司1997年至2016年机动车辆的索赔次数进行了分析和拟合预测,发现泊松分布、负二项分布和混合泊松分布在处理该类问题时,预测结果的平均绝对百分误差(MAPE)较大,分析其原因主要在于对大数定律的依赖和对纵向的历史经验运用不足,仅仅是一个横截面层次的考量。机动车辆保险索赔次数作为十分复杂的非线性动态系统,随着时间的变化也不断变化,所以索赔次数的序列也可以看做时间序列,作为处理时间序列的ARIMA模型在对索赔次数的预测问题中也应该有重要的应用。本文对时间序列模型进行了详细的介绍,主要包括三个方面:首先是关于自回归模型(AR),移动平均模型(MA)和自回归移动平均模型(ARIMA)数学原理的详细介绍。其次,是关于自回归移动平均模型ARIMA(p,d,q)中各个参数确定的介绍。最后,是关于ARIMA模型的建模步骤的介绍。在介绍完时间序列模型之后,本文运用时间序列ARIMA模型同样对某财产保险公司某分公司1997年至2016年机动车辆索赔次数进行了分析和拟合预测,结果发现时间序列ARIMA模型对索赔次数的预测效果要好于泊松分布、负二项分布和混合泊松分布,但是与真实值还是有较大的平均绝对百分误差(MAPE),分析其原因主要在于ARIMA模型在处理平稳的线性时间序列效果较好,对索赔次数序列中包含的非线性部分并没有做很好地处理。虽然时间序列ARIMA模型对平稳的线性时间序列(差分后的时间序列)有着很好的处理能力,ARIMA模型也能够很好地处理机动车辆索赔次数时间序列的线性部分,但原始的索赔次数时间序列既包含线性部分,又包含非线性部分。所以在处理原始的索赔次数时间序列拟合问题的过程中,还需要借助其它方法去处理时间序列中非线性部分的问题,并对非线性部分的信息尽可能地提取。支持向量机(SVM)作为一种新兴的小样本处理方法,得到了极大的认可。同时支持向量机(SVM)依据统计学习理论为基础,在处理小样本非线性问题上有很好的表现,且在全局最优解层面寻求结果也使其具有良好的推广能力和泛化能力。所以,针对机动车辆索赔次数这类小样本数据的预测问题上,通过结合ARIMA模型和支持向量机(SVM)模型二者的优点后,本文又提出运用ARIMA和支持向量机(SVM)组合模型预测的方式对索赔次数进行预测。结合本文对机动车辆保险索赔次数组合预测的思路,本文通过结合ARIMA模型和支持向量机(SVM)模型各自的优势,提出了ARIMA-SVM组合预测模型和相应的建模步骤。最后,通过运用ARIMA-SVM组合预测模型对某财产保险公司某分公司1997年至2016年机动车辆索赔次数进行了分析和拟合预测,最后的实证结果表明,组合预测模型对索赔次数的拟合效果的确比单一的时间序列ARIMA模型和经典索赔次数分布模型都要好,而且ARIMA-SVM组合预测模型不仅克服了单一ARIMA模型对时间序列非线性部分信息提取不充分的问题,也避免了经典索赔次数分布模型横向拟合处理尾部风险数据能力不足的问题。本文总共分为七个章节,每个章节的内容互相关联,但又都有自己的主要观点:第一章概要介绍了本文的研究背景和意义,着重介绍了本文的研究对象和方法,并通过对国内外相关文献关于研究对象的各种处理方法的介绍,提出了本文的研究思路和章节安排。第二章对机动车辆保险做了详细的介绍,主要是包括机动车辆保险的概念和特征,以及造成这些特征的主要因素,也正是这些特征的复杂性也导致了索赔次数后续实证过程中的复杂性。第三章为了处理索赔次数问题和后续模型的对比分析,故对传统的经典索赔次数分布做了详细的介绍,主要包括索赔次数的简介,几类经典的索赔次数分布:泊松分布、二项分布、负二项分布和混合泊松分布等,并在此章详细介绍了这几类分布的数学原理。第四章考虑到机动车辆索赔次数具有时间序列的特性,考虑使用经典的时间序列ARIMA模型进行预测。所以,第四章对ARIMA模型做了很细致的介绍,包括自回归模型(auto-regressive model,AR),移动平均模型(moving average model,MA)和自回归移动平均模型(auto-regressive moving average model,ARIMA),并分别对各个模型的原理和参数确定做了分析,最后对其在时间序列预测中的建模步骤和流程也做了介绍和说明。第五章本章对支持向量机(SVM)做了全面详细的介绍,首先介绍了其统计学习的理论基础,推广性的界、VC维、经验风险最小化准则(ERM)和结构风险最小化准则(SRM);其次对支持向量机(SVM)的基本思想、优点和核函数也给出了详细的介绍;然后针对支持向量机(SVM)分类和回归两个大的方面,展开了相关的原理、数学表达式以及实际运用方面的详述;最后就支持向量机(SVM)和时间序列ARIMA模型组合预测原理也进行了分析,相关的建模流程和步骤也一并给予了体现。第六章本章先通过几类经典索赔次数分布、单一ARIMA模型和ARIMA-SVM组合预测模型对实证数据做了实证分析,再借助平均绝对百分误差(MAPE)值来比较各个分布模型的拟合效果。最后通过实证分析得出了相应的实证结论,针对索赔次数这类小样本的数据,传统的经典索赔次数分布拟合效果不好,特别是在对尾部风险数据的拟合上,有很大的误差。这种带有时间序列性质的数据,运用ARIMA模型预测其效果要比传统索赔次数分布要好。但一般的时间序列ARIMA模型仅对平稳的线性时间序列(差分后的时间序列)有很好的处理能力,而对原始时间序列非线性部分则需要通过其它方法处理,本文中非线性支持向量机—径向基核函数支持向量回归机则是对其非线性部分处理的良好方法之一,在径向基ARIMA-SVM模型的实证结果也说明了其处理该类问题的能力。第七章总结了论文所做的工作,并提出在机动车辆索赔次数预测过程中,还需要进一步解决的问题。本文的创新之处:索赔次数的预测方法有很多,但大多数是基于某种概率分布的拟合预测去实现的。基于概率分布去拟合预测索赔次数时存在明显的两个缺点:(1)运用特定的概率分布和用样本数据去估计参数的方法需要满足大数定律,所以针对小样本的数据,其拟合效果不会很好;(2)特定的概率分布在处理具有偏尾性质的样本数据时,对尾部数据的拟合效果很差,但机动车辆索赔次数的尾部数据对车险公司又有很重要的风险防范意义,不容忽视。概率分布去拟合索赔次数的方法,是从截面数据的角度去考量的,但本文认为历史数据的历史信息不容忽视。因为时间序列的方法对索赔次数的预测能充分运用历史经验数据,所以本文提出了ARIMA模型的预测方法。同时,考虑到ARIMA模型在处理线性和非线性混合系统时,对非线性部分的信息提取不充分的问题,本文提出运用支持向量机(SVM)的方法去处理非线性部分,最终在ARIMA-SVM组合预测的方法下,索赔次数的预测效果比经典概率分布下的预测效果更好。本文的不足之处:(1)虽然从预测原理和实证结果来看,本文的组合预测方法都有不错的效果,但是考虑到本文的数据选取量远远不足以或者接近大数定律的要求,当数据足够充分时,本文组合预测的时间序列方法是否比经典分布的方法效果更好不得而知;(2)本文只选取了经典分布模型作为本文模型的对比分析模型,但实际上关于索赔次数的分布模型有很多,而且都是在经典分布模型基础上进行优化的模型,可是本文并未纳入这些模型作为对比分析。(3)组合预测的模型有很多种,但就哪一种组合预测模型更适合机动车辆索赔次数这类数据,本文并未做分析与探讨,还有待后续研究。
其他文献
目的分析比较多层螺旋CT(MSCT)与核磁共振(MRI)在诊断原发性颅脑肿瘤中的应用价值。方法将2016年5月至2018年5月于我院就诊治疗的68例原发性颅脑肿瘤患者作为研究对象,所有患
儿科患者的特点是年龄差别大,给药剂量不易掌握,自理能力差或者完全不能自理,交流障碍,配合差或者完全不能配合,需要向家长解释的问题较多。患儿多起病急,病情变化快,家长容
为了解决传统自优化控制方法在未知扰动下指标函数损失大的问题,提出了一种基于Karush Kuhn Tucker(KKT)条件分别选择积极约束和简约梯度作为被控变量的改进方法.对于简约梯度
习惯上,大家知道国歌是反映东北义勇军抵御日寇那段悲壮历史的赞歌。但是,若论源头,国歌的诞生却与辽宁紧密相关。古诗中说"问渠哪得清如许,为有源头活水来",国歌激扬的旋律
在资源要素成本上升与环境管治趋严的背景下,传统产业需借助绿色创新重新建立竞争优势。传统产业绿色创新受环境管治压力和绿色技术竞争推力以及市场拉力的共同作用,是一项集
妊娠糖尿病(gestational diabetes mellitus,GDM)是一种代谢性复杂性疾病之一,对母婴健康均产生近期及远期的不利影响。本文对近年来GDM在发生率、危害、临床诊断、发病机制
本文讲述了在我国大力发展三网融合的背景下,成果初现之际,国内网络视频市场的发展新变化,以及激烈的竞争所带来的机遇和挑战
今年一月二十一日是无产阶级的伟大领袖和导师列宁逝世六十周年。我们以《继承和发展列宁主义》为题,组织了这次笔谈,以诗纪念。
房屋建筑中施工项目部对现场人员、机械设备、环境的管理,重点在于质量管控和施工进度的监管,是施工现场管控的中心思想,包括质量体系的建立、对材料的管控、对人员的组织安
目的:应用冠状动脉(CTA)与光学相干断层成像(OCT)对冠心病患者犯罪病变处的影像学作用,从而评价CTA与OCT的对诊断犯罪病变的可行性。方法:对冠心病患者共87例行CTA及OCT,分别测量管腔