基于联合模型对企业社保数据的分析及其聚类

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:liuking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
充分利用所掌握的企业数据信息,对现有数据拟合适当的统计模型并对其进行分析与预测,了解各家企业的经营状况,评估并降低贷款违约风险,同时划分企业客户群体,始终是银行等金融贷款机构所追求的关键目标。因此,如何从银行等金融贷款机构所掌握的各家企业各方面的有限数据(本文主要建模对象为企业月度社保缴纳额数据,除此之外还包括企业的年度财务数据,企业基本信息,贷款记录等)出发,充分整合现有信息,对其进行合理的建模分析与预测,评估各家企业的贷款违约风险并同时实现企业分/聚类,便成为了一个非常具有研究意义和价值的课题,这也正是本文建模拟合的分析目标。一方面,作为银企之间一项十分重要的业务往来数据信息,社保缴纳金额是银行目前掌握最全面、信息最充分的企业相关数据,对其建立合理的统计模型、实现对社保数据的统计分析与预测,对银行相关业务发展具有十分重要的意义;另一方面,企业社保额与其经营状况有着十分紧密的联系:一家企业为员工缴纳社会保险金额大小往往能直接反映企业员工数量与薪资水平等衡量企业经营状况好坏的重要指标,因此,各家企业不同时间点的社保缴纳额数据是本文建模分析的主要对象。其次,对各家企业的贷款违约情况以及首次贷款违约时间与社保缴纳额之间的关系进行合理分析,对银行等金融贷款机构降低贷款违约风险、提高贷款收益有十分重要的意义,因此,对企业贷款违约时间这一信息的合理运用也是建模过程中十分重要的环节。另外,作为影响企业经营状况以及贷款违约风险的重要因素,企业的财务数据和基本信息等也不容忽视,同样应纳入模型进行分析。基于以上分析,本文运用联合模型(Joint Model)理论对上述数据进行建模及拟合,同时尝试根据模型得到的估计参数对企业进行聚类分析。首先,对于各家企业不同时间点观测到的社保缴纳额纵向数据(Longitudinal data)拟合线性混合效应模型(Linear mixed-effect model),对每个企业不同时间点的社保额观测值,通过引入公共的随机效应参数来体现不同企业之间的异质性以及同一企业不同时间点观测之间的相关性,另外,企业基本信息与财务数据等作为因变量纳入模型;之后,我们将企业首次贷款时间看作生存分析理论中的事件发生(失效)时间(time-to-event),利用生存分析模型对其进行拟合;由于企业社保缴纳额与企业贷款违约信息之间是互相影响关系,因此,我们通过在线性混合效应模型与生存模型中设置共同的随机因子,将两种模型联合起来,利用极大似然法基于观测数据进行参数估计,具体求解方法为EM(Expectation-Maximum)算法,在此基础上,根据估计参数的渐近性质,我们可以进行参数置信区间构造、假设检验等工作,并基于残差分析来评估模型对数据的拟合效果。最后,我们根据模型对企业社保数据以及未来违约概率进行动态预测,并检验其效果。对于企业群体划分,由于原始数据缺少标签、维数过高而且并不平衡,因此我们在联合模型拟合的基础上,将每家企业的随机效应估计参数作为新的特征,进行无监督的聚类分析。通过对企业社保缴纳额及其首次贷款违约时间数据进行联合建模,一方面我们最大程度利用现有的信息,对企业社保额缴纳数据进行合理的统计建模分析的同时实现企业分类(聚类),可以让银行等金融贷款机构在信息有限的情况下,合理预测企业未来的社保缴纳金额水平并评估企业贷款违约风险,对银行相关业务发展以及贷款策略的制定都有十分重要的意义。同时,基于联合模型的拟合结果,我们利用模型的估计参数来代表整个数据的信息特征,对高维的数据进行降维处理,进一步对数据作聚类分析,从而实现对企业群体的合理划分,有助于银行等金融贷款机构对来自不同群体的企业客户制定相适应的贷款策略与发展合作计划;另一方面,将企业首次贷款违约时间作为生存分析理论中的失效时间,对联合模型相关理论进行灵活调整,实现对纵向形式的企业社保缴纳额与首次贷款违约时间数据的联合分析建模,是该理论在医疗健康数据方面外的一个十分有意义的应用,为该套理论推广至更复杂的金融领域数据积累宝贵经验。最后,本文将系统性的阐述联合模型理论,并尽可能完善相关证明推导,也是对联合模型理论发展成果的一次良好的总结。
其他文献
随着课程改革的不断推进,教育工作者越来越重视课堂研究,其中“课堂观察”作为一种普遍而又有针对性的科学方法受到了中小学教师的欢迎。课堂观察作为改进教学的一种手段,不同于以往的听评课,它不是为了评价教学而存在,而是在整个观察过程听课者与被听课者之间是平等的,他们是为了探讨研究课堂学习,促进共同进步而产生的行为。教师可以利用课堂观察了解学生的课堂情况、分析自己的课堂教学,从而更好地设计自己的课堂,整理出
学位
P2P是Peer-to-Peer Lending的英文简称,意思是个人对个人的信贷,即借款人和贷款人通过P2P借贷平台作为中间平台,完成贷款、利息等工作项目。依托互联网,它就可以完成包括注册、认证、记账、清算等工作的一整套流程。虽然P2P借贷平台发源于互联网,但它的本质仍然是民间借贷。它是以小额民间借贷为基础,依托于互联网平台完成信息之间的对接工作。在兼容不同类型客户各式各样的需要的同时,P2P借
学位
自动驾驶是目前最前沿的研究领域之一,也是未来人工智能应用的重要场景。自动驾驶系统主要包含感知、决策和控制三个环节,其中决策环节在整个系统中起着承上启下的作用。同时,在实际行驶中,很多时候同一场景下不同司机的认知和反应(操作)并非一致,即同一场景可能存在多个合理结果,这就导致了自动驾驶中的所谓多模态问题,即Multi-Modal- Problem。多模态问题给决策带来难度,也影响决策效率,因此在决策
学位
随着上世纪全球城市化进程的不断加快,与之匹配的城市管理模式愈发显得落后,导致城市化的过程中催生了诸多城市病,20世纪80年代初期,在WHO的主导下,加拿大多伦多市举办了一场学术会议,正式提出了“健康城市”理论,这种新型城市发展理念很快便掀起了一股风潮,开始在全球传播。通过研究国内外健康城市发展趋势,并结合国内外众多健康城市评价指标体系,在遵守健康城市评价指标构建原则的基础上,本文针对湖北省构建了相
学位
夸克-胶子等离子体(QGP)作为高温高密下的退禁闭量子色动力学(QCD)相,其性质一直以来都是高能重离子碰撞领域的重要研究对象。重夸克偶素产额在QGP热介质中的压低可作为QGP产生信号的探针,因此重夸克偶素在热介质中的性质是一个重要的研究方向。在本文研究中,主要着眼于重夸克偶素的屏蔽质量随温度变化的行为。重夸克偶素的屏蔽质量可以从其空间两点关联函数进行提取,而空间两点关联函数可以通过淬火格点QCD
学位
在社会化网络和移动互联网的迅速发展下,用户生成内容成为网络一大数据类型,碎片的UGC内容中蕴含着丰富的用户解决任务和处理问题时的经验知识。本文探讨对碎片化的UGC进行知识组织,将知识组织过程具体分为UCG知识元抽取、UGC多粒度关联、UGC多粒度索引和实证过程。本文提出以知识元为基本的知识单元来进行UGC知识组织,以不同粒度UGC知识元关联结合形成多粒度的知识结构,从而面向不同的认知结构用户提供不
学位
股票作为资本市场上的投资工具之一,是长期回报最好的投资。投资者根据市场有效理论以及信息观和计量观估值理论,利用获得的信息数据,分析和评价该股票,在资本市场上进行投资决策。买股票就是要买一家好公司,就是买一家公司未来的收益,所以公司真实的盈利水平以及未来稳定可靠,可持续增长的盈利能力显得尤为重要。所以利润是投资者进行股票投资决策最为重要的依据信息。随着我国沪、深证券市场的成立和国有企业的股份制改革,
学位
“顾客管家控制(CSC,Customer Stewardship Control)”的概念最早是由Schepers et al.(2012)所提出。随着全球科学技术的进步和网络的快速发展,人们的主要休闲娱乐方式从传统的报纸、广播、电视节目等逐渐地向线上的社交媒体转移,甚至还渗透到了工作场所,促进了过去不可能的组织沟通和知识工作。销售管理控制系统,尤其是非正式控制系统的研究是使用也越来越普遍,国内外
学位
中共中央总书记习近平同志曾多次在不同场合强调:教育强则国家强。教育强国也早已成为国家发展的重要战略之一。近年来,随着全国高等教育制度的完善,高等教育已越发普及化,企业在对高管团队的用人选人方面愈发看重个人的教育背景,包括学霸、海归等词汇都成为了社会热议的话题。但由于改革开放以来中国涌现了数不胜数的发展机遇,许多人在没有良好教育背景的前提下凭借自身的智慧和手段抓住了时代发展的机会,获取了令人震惊的成
学位
阐述自我护理能力的定义,从研究现状、影响因素及提升自我护理能力的措施方面综述肝癌经导管肝动脉化疗栓塞(TACE)术后病人自我护理能力的研究进展,以期为提高TACE术后病人自我护理能力提供依据。
期刊