集成学习与回归模型在车险定价中的比较研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dong0003060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着汽车保有量的逐渐增加与自然灾害的频发,汽车保险的费率厘定更加受到保险公司的重视。中国银保监会2020年9月发布的指导意见中提出,加大车险改革力度,更加科学地厘定费率,使得车险价格与风险更加匹配。目前广义线性模型是车险纯保费费率厘定的主流方法,而随着大数据的发展,集成学习方法也被逐渐应用于车险纯保费计算当中。基于法国第三方责任车险的索赔数据集freMTPL2freq和freMTPL2sev,在考虑了索赔频率与索赔强度存在相依性关系的前提下,本文建立了索赔频率-索赔强度的纯保费费率模型。其中广义线性模型(泊松回归)、零膨胀泊松回归模型(ZIP)以及零膨胀梯度提升树模型(ZI-GBM)用于建立索赔频率预测模型;广义线性模型(伽马回归)、随机森林模型(RF)、梯度提升树模型(GBM)与轻量化梯度提升树模型(LightGBM)模型用于建立索赔强度预测模型。索赔频率和索赔强度预测模型再通过互信息(MI)与斯皮尔曼相关系数结合进一步确立纯保费的预测模型,此外还通过Copula函数的方法考虑二者之间的相关性,从而建立多个纯保费预测模型,之后利用集成学习(Stacking与Blending)的方法得到了前述多个纯保费模型的融合模型,最后进行模型的比较研究。在索赔频率预测模型中,结合了特征因子交互作用的广义线性模型是拟合效果最优模型,零膨胀泊松分布的梯度提升树模型是次优模型。本文分析得到惩奖水平(BonusMalus)、驾驶员年龄(DrivAge)、车辆年龄(VehAge)是影响索赔频率的前三个风险因子。在索赔强度预测模型中,对数索赔强度的梯度提升树模型在所有索赔强度预测模型中表现最优。对数索赔强度预测模型的结果均要比索赔强度预测模型的结果更优。驾驶员年龄(DrivAge)、车辆品牌(VehBrand)、惩奖水平(BonusMalus)、密度(Density)、行政区域(Region)以及车辆年龄(VehAge)是影响索赔强度的前几个风险因子。索赔频率与索赔强度观测值得出的互信息为0.32,由此说明两者之间存在着较强的相关性关系。考虑相依性建模后得到多个纯保费模型,其中ZIP-RF-MI模型是拟合效果最好的纯保费模型。对多个纯保费模型进行模型融合之后的总模型的预测精度较融合之前子模型要高出许多。考虑到每个子模型运行时长的问题,本文建议模型融合可以用于数据量较少的情况,既节约时间,又能提高预测精度。
其他文献
由于电信业务的快速发展,服务供应商更倾向于扩大用户群,这意味着电信客户将有多样的选择。为了满足在竞争环境中生存的需要,留住现有电信客户已成为一项巨大的挑战,电信客户流失率问题自然成为运营商所面对的一个重大课题,关系到公司未来的发展前景。本文针对电信客户流失问题开展研究工作,构建基于机器学习的电信客户流失预测模型,使企业能够精准预判电信客户流失与否,从而创造更大的利润。本文主要使用Kaggle竞赛网
学位
20世纪90年代,我国成立两个证券交易所,开创了在社会主义制度下建立股票市场的先河。自此,我国股票市场开始逐渐发展和完善,拥有的股票种类越来越多,同时也受到越来越多投资者的关注。2021年,我国设立了北京证券交易所,这也有利于推动股票市场的高质量发展。然而,目前股票市场还存在中小投资者非理性投资、过分投机的现象,以及资源配置不合理,风险波动大的情况。本文研究如何合理制定股票配对交易的套利策略,旨在
学位
随着中国经济步入高质量发展阶段,单纯依靠投资驱动和要素扩张推动经济增长的模式受到资源、环境以及要素成本等多重因素的制约。在这样的背景下,如何转变新时期发展动能、推动产业结构优化升级、实现经济持续稳定增长,成为亟待解决的关键问题。“一带一路”倡议作为中国践行“走出去”战略、深化对外开放格局的关键一步,为中国企业在全球范围内配置资源提供了便捷的平台和广阔的机遇,参与“一带一路”建设的企业积极开拓全球市
学位
中国是全球智能手机用户第一大国,并且手机用户的数量还在呈现逐年上涨的趋势,但是国产手机用户的渗透率不高,海外手机对国产手机形成巨大压力。国产手机市场犹如一片“红海”,市场上的产品同质化严重,价格竞争十分激烈,智能手机行业开始进入不健康的发展期。随着5G技术的不断应用,5G手机开始成为行业的主流,根据2021年上半年中国信息通信研究院发布的数据显示:国内市场5G手机出货量为1.51亿部,同比增长94
学位
近年来,移动互联网与大数据技术的高速发展加快了智能移动设备的普及,提高了文娱消费能力,促进了文娱产业数字化转型,在线视频行业呈现出了蓬勃的生命力,成为人们生活中的“必备品”。然而,在人口红利减弱的时代背景下,在线视频行业正面临着市场同行竞争激烈、产品同质化严重、获客成本变高、用户增长乏力等发展问题,用户成为各大视频网站的争夺焦点。因此,有效利用平台海量、无序的用户行为数据,研究挖掘用户需求和产品痛
学位
随着互联网逐步成熟、移动智能化设备日益普及,互联网社交逐渐走向了自媒体领域,网络平台中的视频数据呈爆发式的增长,导致用户不能精准的获得自己特别感兴趣的视频内容。面对丰富的网络信息资源,如何既快速又高效地帮助用户找到自己真正感兴趣的信息是如今讨论的热点问题,而建立视频点击率预测模型就是解决该问题的关键。视频点击率预测主要是在上下文有效信息的基础上,对用户点击某个视频的概率进行预测。由于各类先进的机器
学位
现代医疗作为政府最重视的民生保障,在互联网+的时代不断地进行着变革。传统的人工医疗渐渐地不能够满足行业的发展和人民的需求,因此医疗系统的信息化与数字化转型迫在眉睫。许多学者将医学数据与人工智能、机器学习模型相结合,建立了新兴的数字化医疗技术,辅助医生进行疾病诊断的同时,也大大节省了医疗行业的人力物力资源,这种双赢的局面使得互联网医疗技术成为不断发展的热点技术,为数字化医疗的发展带来更多更新的动力。
学位
基于案例分析,阐述现代信息技术在互联网背景下得到了明显的发展,在课程教学的应用实践,构建信息化平台、实践立体化教学、扩展互联网教学资源,从而促进课程教学多元化。
期刊
目前,我国几乎所有与大气污染相关的指标排放均排世界前列。大部分地区雾霾天气频繁,空气质量不容乐观。空气暴露污染可导致过敏性疾病发病率升高,其中过敏性鼻炎作为常见的非感染性炎症疾病,全球约有10%~20%的人口患有。且一旦患病,尚无法根治,对人群的身心健康造成极大的困扰。本文从两个方面对空气污染对过敏性鼻炎的影响进行了研究。首先,基于广义相加模型对空气污染物(PM2.5、PM10、O3、SO2、NO
学位
随着年轻一代逐渐成为餐饮行业消费的主力军,消费者在饮食方面的需求日趋多元化,加之餐饮业态本身的多样性,餐厅面临着房租高、人力成本高、食材成本高而毛利低的困境,这使得降低成本的问题变得越来越紧迫,而人力成本和食材成本往往与销量相关,因此精准预测菜品销量一直是餐厅关注的重点。由于在线评论反映了消费者的就餐体验,同时还是用户决定是否消费的一个重要因素,因此本文试图从细粒度的角度挖掘在线评论中的信息,进而
学位