基于集成学习算法的车险索赔频率问题研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:xiaobi68029616802961
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国财产保险公司的业务结构决定了机动车辆保险业务在财产保险公司一直占据十分重要的地位。根据我国银行保险监督管理委员会统计数据,2018年及2019年,我国车险业务保费收入增速仅维持在4.5%左右,2018年国内55家产险公司车险保费过亿,合计车险保费约7799亿,合计承保利润却只有24.2亿,同比下降71%,车险占比进入下行通道的概率已经大大提高了。造成近年来车险利润下滑的原因也是多方面的,包括新车市场汽车销量放缓、车险费率改革的不断调整等。从精算定价技术层面来看,定价机制粗糙、保费和风险之间不能精准匹配等也是造成利润增长水平难以维持的原因。车险市场陷入“水深火热”状态,愈发激励各企业提升自主定价能力,实现稳定经营。机动车辆保险(简称车险)的定价模型包括索赔频率模型、索赔金额模型和累积损失模型,在实际应用中,需要根据数据的特点选择不同的模型组合来厘定车险的费率。机器学习算法是近年内逐渐被广为利用的一种预测工具,在很多领域,因使用机器学习算法,使复杂的问题得出的结果更为精确,提高了对于问题解决的准确性。因此,在机器学习广泛应用背景下,其在解决保险索赔的预测中也成为了较好的解决问题方法。作为常规性的数据处理方法,一般包括广义线性回归模型和机器学习模式下的非线性模型,而两类模型在应用中各有利弊。机器学习算法的优点是不依赖于分布假设,当现实的保险索赔数据达不到广义线性模型所要求的数据分布状态假设时,机器学习算法可以成为解决该类问题的有效待解决方案,从而某种程度得以提高保险最终损失预测的准确度。一般情况下,对于规模比较大的样本数据集,广义线性回归模型在拟合优度方面略劣于机器学习算法,并且随着样本数据集规模的增大,机器学习算法的拟合效果优越性越明显。另一方面,多数机器学习算法也存在着自身缺陷,例如时间消耗较多,建模前的特征工程、模型中的超参数选择等存在较多的人工干预,模型存在灵活性的同时也增加了建模难度,模型的过程通常是“黑匣子”状态,缺乏对模型的可解释性。理想状态下,可以考虑在模型筛选过程中进行多种模型结果融合,包括模型结果的加权平均、强模型之间的叠加集成等,以此来辅助验证对于索赔数据预测是否出现误差,同时融合二者优点,提高模型预测精度。大数据背景下,保险公司积极打造坚实的数字化基础,数据打通与算法优化将促成车险定价逻辑的改写。从定价趋势上看,随着车联网技术的不断发展和车险费率改革的不断深化,商业模式不断与技术变革进行融合,机器学习方法可以深入挖掘经营数据信息,释放更多业务价值,提升对费率厘定的合理性、公平性,促进我国车险市场不断规范。所以本文采用国内A财产保险股份有限公司的商业车辆损失保险原始数据集,通过对汽车保险索赔数据探索性分析,结合基于机器学习中集成学习算法中的并行算法(如袋装法Bagging)与串行算法(如极值梯度决策树XGBoost),在传统基于均值的预测模型广义线性回归与机器学习中的集成学习方法之间,进行模型的比较、筛选、优化,并基于XGBoost模型的预测结果对模型特征中风险因子的相对重要性进行排序,为车险的承保、定价和理赔提供参考依据。文章由五部分构成,相互承托,贯彻了机器学习背景下车险定价模型应用的逻辑:第一章节,首先厘清当前保险行业发展困境、政策环境、定价水平等选题背景以及待解决的问题,进一步研究分析国内外相关文献和前沿观点,深入了解当前车险定价方法中索赔频率问题的研究现状,探索机器学习中不同算法对车险定价影响和发展趋势,在此基础上形成文章主要工作框架和研究思路。第二章节,对文章所要研究的机动车辆保险损失频率预测过程中的重要思考点剖析,内容集中在基本的模型形态、损失函数的表示、同类模型之间以及不同特质模型之间模型表现好坏的评判标准,为后文中模型比较、分析提供准备。第三章节,在前文明确索赔频率预测目标后,为了便于模型的选择,先深入了解本文使用的数据集。本文没有使用以往国外相关的经典车险数据集,结合国内大数据背景和保险行业发展,选择了A财产保险股份有限公司车辆损失价值保险的原始数据。通过对数据集的清洗、变量的描述性统计分析、相关性分析等了解数据的特点。对于索赔发生次数的不均衡问题进行不同方法的处理,增强模型选择的合理性,提升模型预测水平。第四章节,本章节是论文的核心部分,结合传统均值回归模型和当前大数据背景下机器学习集成学习算法方法,将样本集进行训练集和验证集的划分,对数据进行回归拟合。在广义线性回归的基础上,对比基于集成学习算法的GBDT、XGBoost、Light GBM算法模型,根据各模型的特点进行理论介绍、特征预处理、参数选择、模型优化等预测能力分析和比较,对模型进行筛选。在模型预测的过程中,尽量减少人工干预,坚持数据驱动,在广义线性回归中,数值变量的分类标准采用回归树来决策,对比行业专家意见的变量分类,模型效果更好。第五章节,通过对第四章节中各模型评价指标的反馈汇总,分析各模型的优缺点已经应用场景,总结了模型筛选的结论,针对机动车辆保险索赔频率预测的定价技术问题,可以进一步拓展完善的相关内容,包括大数据背景下提升数据维度的全面性、模型组合进一步提升预测准确性、提升机器学习算法下模型解释能力等,对文章进一步的拓展。
其他文献
学位
随着经济的快速发展,环境污染、资源紧缺等问题也日益严重并引起社会高度重视,企业界纷纷开始采取环保措施应对环境问题,而企业环保实践有赖于员工绿色行为的积累,因此,如何有效激发员工绿色行为成为理论界与实践界探讨的热点之一。环境变革型领导被多数学者认为是一类典型的绿色领导行为,其倡导的环境可持续发展理念能在较大程度上促进员工绿色行为的产生,但二者之间作用机制研究主要聚焦于员工环保态度、动机和情感等中介的
小微企业在国民经济和社会发展中的作用日益显著,成为推动经济发展的重要力量。但是融资问题一直限制着小微企业的发展,甚至影响到小微企业的生存。2020年年初,受到了新冠肺炎疫情较大的冲击,大量小微企业面临着严峻的资金困难,有的甚至面临生死存亡的危机。对此,虽然国家及监管部门多次强调银行业要降低小微企业综合融资成本,更好地服务实体经济高质量发展,以确保小微企业的融资与生存问题,但是部分小微企业仍未度过经
儿童虐待是一个普遍存在的现象,而心理虐待作为儿童虐待中十分重要的一种形式却常常不被察觉。许多研究表明,儿童期心理虐待会对个体主观幸福感产生消极影响。而情绪智力是个体发展的保护因素,可以减少心理虐待对个体产生的不利影响。因此对心理虐待、情绪智力、主观幸福感的关系进行探讨,对于减少心理虐待所导致的负面影响具有重要意义。本研究选取武汉市某初中的679名中学生为被试,以儿童心理虐待与忽视量表、情绪智力量表
火车站作为一个地区的交通枢纽,担负着将万千旅客平安运送到各地的任务,随着国家基础设施建设的大力投入,国家铁路网也越来越密集,火车站在城市中的地位越发的重要。随着城市公共交通的大力发展,各种交通方式在此汇集,火车站逐步成为国铁、地铁、公交、飞机等各种交通工具无缝换乘的综合性交通枢纽。火车站地区短时间内有大量客流集散。同时,由于其特殊的地理位置,火车站地区这一功能区开始承担越来越多的职能,对应的交通秩
老龄化问题加剧了老年群体对养老服务的需求,引发了社会公众对养老问题的关注。与养老产业关联度很高的保险公司结合自身的特点,顺应老龄化趋势也加入到养老社区的投资建设和运营之中。截至到今天,保险公司投资建设和运营养老社区至今已有9年之久,一些企业始终坚持一种模式,还有一些企业在初期选择了一种模式之后因为经营效益问题和自身问题开始对模式进行转换。这意味着保险公司选择合适的模式来投资建设和运营养老社区具有非
历史文化村落具有人文与地理的双形态,拥有物质文化与非物质文化的双遗产,是不同地域文化、宗教传衍以及社会活动多样性的见证,具有重要的历史文化价值。随着城镇化的快速推进,对历史文化村落的文化遗产与人居环境造成了不同程度的破坏,具有文化保护价值的历史文化村落的保护迫在眉睫。白雾村2005年被评为国家级历史文化名村,但发展至今却不尽如意,村落的保护与发展之间形成了极大的矛盾与对立。如何保护好白雾村,使白雾
“全面实施绩效管理”是我国政府目前的重要改革趋势。逐渐在政府部门推行绩效管理,使绩效的观念深入到每个工作人员脑海中,这也是习近平总书记在十九大报告中所提出的。绩效管理应该与行政问责挂钩,对政府日常工作通过考核加以规范,同时要建立起相应的激励机制,使绩效考核落到实处。随着一系列关于绩效管理的要求开始实施,政府绩效管理走入了大众的视线,并受到了极大的重视,成为了优化政府职能配置和机构设置的重要助力器。
动画产生于20世纪初,随着视觉残留理论的产生和研究,在“停机再拍”的技术基础上,结合早期插画与电影艺术的表现而产生的一种艺术形式。动画发展近百年间经过了由实验动画时期,到影院动画时期,再到产业动画时期,最后转变到数字化动画时代。在现代主义卡通风格在欧洲兴起的年代,美国联合制片公司(UPA)制作了充满现代感的设计和极简主义风格的角色,使用极具现代感的动画挑战迪士尼的写实风,使得这个时期的动画大量吸取
援外培训项目是我国外交政策的具体表现形式之一,同时信息与技术作为众多培训项目的主题之一,对显示中国科技实力及推动别国科技发展起到了至关重要的作用,而口译在这一过程中起着桥梁和纽带的作用,关系到中国援外培训项目的顺利实施。该论文的材料来源于2019年萨摩亚信息技术培训班,涉及在武汉五家信息技术公司的参观和交流,具有较大分析价值。在进行科技口译时,由于语言文化背景的不同,译员应注意理解原意,脱离源语的