关于大型不完整网络的分类预测问题研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:sollovewj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人们消费观念的改变和互联网科技的进步,消费金融行业得到了蓬勃发展,越来越多的企业涌入这一领域。然而,在消费金融覆盖人群越来越广的同时,贷款欺诈现象也愈演愈烈。因此,在放贷过程中,对客户信用的鉴别显得格外重要,这也是风险控制中的重要环节。传统的风险建模运用了用户的大量信息作为协变量建立统计模型或机器学习模型,用模型的输出来判定客户的信用水平。但是在有些情况下,用于建模的协变量包含的信息可能有限,无法很好地起到鉴别客户的作用。甚至有时候协变量可能缺失率较高或者完全无法获取,所以导致无法对某些客户的信用水平作出客观判断。然而,客户之间的关系网络往往比较容易构建,比如利用其申请信息、社交账号信息、通话信息等,因此可以考虑利用关系网络来甄别客户的好坏。
  在对网络数据的研究中,社区检测是一类很重要的问题,其思想在于通过网络中节点之间的连接密集程度将整个网络分成几个子网络,而每个子网络之中的节点应该含有相近的属性。通俗地说,就是物以类聚,人以群分,同一类型的人群之间的联系应该更加密切,而不同类别的人群之间的联系就相对较少。在社区检测的假设基础上,借鉴基于图的半监督学习算法的核心思想,本文提出了一种利用关系网络来甄别客户好坏的算法,命名为网络标签传播算法。在实际中,如果单单基于贷款申请人构建网络,那么这个网络会比较稀疏,也没有考虑到一些贷款中介的影响。因此,本文考虑基于贷款申请人及其所有关联客户的大型网络。但是,网络中各个客户的好坏标签往往存在大量的缺失,因为其中只有很少部分客户有过还款行为。而网络标签传播算法仅需要通过所有客户之间的关系网络,就可以利用这少量有标签的客户(通过审批且有过还款表现的客户)的真实标签来预测无标签客户(被拒客户或者未申请过贷款的客户)的真实标签,以辅助消费金融公司在贷前评估个人信用,从而达到风险控制的目的。
  在一些合理的条件下,本文证明了网络标签传播算法的收敛性,且收敛到唯一值。同时,在相应的数据生成机制下,该算法的一致性也得到了证明。通过在模拟数据和实际数据上的应用,本文验证了网络标签传播算法在各种情形下都能达到良好的预测效果,且在某些情况下应用效果极佳。
其他文献
最低工资制度是各个国家政府调节劳动力市场的主要政策措施之一。我国原劳动部1993年出台了《企业最低工资规定》,并在2004年颁布新的《最低工资规定》,标志着最低工资制度全面实施。最低工资政策是否以及如何作用于实体经济,即最低工资政策影响公司行为的机制和后果问题在学术界得到广泛关注。长期以来,我国中小企业在很大程度上依赖粗放型增长方式和人口红利促进经济增长,最低工资制度的实施使这一状况面临的挑战日趋
行为金融和适应性市场假说(AMH)认为,金融市场具有可预测性,投资者能够通过技术分析、基本面分析等手段获取部分超额收益。为了对金融时间序列进行预测,学者们提出了两类预测方法,即传统计量分析方法和机器学习方法。由于金融时间序列中具有的高噪声、非平稳、非正态分布等特点,基于严格假设的传统计量模型很难对金融时间序列进行准确预测。与传统计量分析方法不同,机器学习方法能够对金融时间序列中的复杂结构,以及变量
学位
“经济状态”取决于许多相互依赖的大企业的行为(生产力和投资行为等等),而大企业在经济稳定中发挥着举足轻重的作用,因为经济中存在着“粒度特征”(Granular effect)。“粒度特征”是指:企业规模为幂律分布的特征,即肥尾的特征——少量大型企业与大量小企业共存。这种特征会使中心极限定理失效,大企业异质性冲击在总体上不会相互抵消,即便是个别企业发生倒闭或困境事件,也极易演变为系统性风险。特别是系
众所周知,在现如今大数据的时代背景之下,信贷数据的来源十分复杂,除银行记录外,信贷数据还包含各种社交数据、电商数据、运营商数据以及其它金融机构的信用数据等,不仅数据种类繁多,还普遍存在数据缺失严重、数据异常等问题。因此,如何来应对严重的数据稀疏问题,已经成为了消费信贷大数据风控中的一个难题,而如何从这些海量信用数据中挖掘出那些被隐藏的信息进而对消费者的信用状况进行评估也成为了一项颇具挑战性的任务。
学位
随着科学技术快速发展,人们在医学、生物学、经济、工业等各个领域获得的数据信息呈指数式增长,数据维数越来越高。变量选择是一种非常有效的高维数据信息提取手段,但传统变量选择方法存在一定的缺陷。Cox比例风险模型是一个半参数模型,在生存分析中占有重要地位,但其应用范围被制约在低维数据中。本文将线性模型下DantzigSelector方法和自适应DantzigSelector方法推广到Cox模型中,并研究
学位
稳健性优化设计的目的是在追求系统输出最佳性能的前提下,尽可能地使不确定性对于系统输出值的影响程度最低,在实际生产中具有十分重要的意义。在现代的产品优化设计领域中,仿真模拟已经成为了设计优化领域中必不可少的手段。随着科技不断发展,仿真能够达到的精度也不断提升,但与之伴随而来的是时间成本与资源消耗的剧增。稳健性优化设计的应用也掣肘于这些实际成本问题。  近似模型能够代替昂贵的仿真模拟,同时保证初始问题
图像修复是利用人们已知的信息来对图像中结构化信息的缺失进行恢复的过程。在图像修复中,人脸修复是运用范围最广,使用场景最多的应用之一。随着现代物质生活水平的飞速提高,电子产品的不断更新换代,人们对于人脸图像的要求越来越高,但现有技术无法令人满意,且对于损坏面部图像处理的功能也并未普及。因此,人脸修复算法的研究具有极大的商业价值和潜在的社会价值。  深度学习方法在人脸补全方面能够捕获图像更多的高级特征
学位
随着我国经济的快速发展,空气污染问题也越来越严重,影响了人们的身体健康和日常活动,因此利用数学模型来研究空气污染指数有着重要意义。  本文首先给出了一个随机微分方程来描述空气中污染物的动力学模型,并使用Euler–Maruyama算法对方程进行离散化,利用2014年至2017年间武汉市空气质量指数的数据,通过极大似然估计得到了方程的参数,并对未来两年的空气质量指数进行离散化模拟。之后,将随机微分方
分数Brown运动(FBM)在长记忆过程的研究中占据了极其重要的位置,特别是随着随机积分理论的发展以及Black-Scholes期权定价理论的形成,FBM在时序分析中的地位日益突显,成为自然过程和金融市场中常用的数学模型,方兴未艾的Hurst指数估计方法也成为人们关注的重点。  本文主要研究了推广的复合分数Brown运动以及Hurst指数的贝叶斯估计方法。本文首先介绍了FBM的各种性质、模拟方法和
本文综合统计分析方法、空间基尼系数、泰尔指数、空间面板等方法对2000—2017年全球人类发展水平空间差异演化及影响因素进行研究发现:①从2000年到2017年,全球HDI平均水平从0.630上升到0.717,增长了13.78%。但是从全球平均HDI增速来看,全球人类发展水平增速逐步趋缓。HDI三个分项指数值其绝对值由高到低依次为寿命指数、收入指数和教育指数。教育指数虽然得分最低,但增长最快,表明