基于并行式计算的带惩罚回归估计

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:whiterain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要研究的问题是基于大数据背景下,本论文研究由于数据规模和维度过大导致传统统计方法无法适用的问题。更进一步,由于存储技术近年来的迅猛发展,数据的存储收集都变得更加方便了,由此发展了分布式系统。分布式存储中由于各个物理节点数据的空间分隔,传统的统计方法很难直接扩展应用。本文的研究从两个角度,其一是如何在单一节点解决由于数据规模巨大或数据结构复杂,单一计算机的内存难以支持原有经典统计方法的一些计算操作的问题。其二是,更进一步,如何解决在分布式环境下,在一些经典问题上,对一些大规模或维度高的数据进行分析。在第一章,我们介绍了本文的研究背景,和研究方法背景知识,如分位数回归、交替乘子算法(Alternating Direction Method of Multipliers,ADMM)、加速失效时间模型(Accelerated Failure Time,AFT)、亚组分析,并且给出了论文的结构。在第二章,我们提出了DisQADMM算法,一个分布式的ADMM求解器用来解决带有惩罚项的分位数回归,以及一系列的稀疏促进的惩罚问题。通过巧妙的设计,DisQADMM算法迭代中涉及到的所有子问题都有一个闭式解。通过应用KKT条件,我们推导得到训练参数的将所有参数惩罚至零的闭式解,从这个值开始,我们可以快速且准确的逼近求解路径。作为该方法的一些副产品,其一,通过将惩罚项设置为0,我们得到了一种高效求解低维大样本的分布式分位数回归求解器。其二,通过将惩罚项设置为0,我们得到一个当所有数据都存储在一起的,非分布式的对于一些列高维分位数回归问题的统一求解器QADMM。这些副产品可以根据具体应用来独立深入研究。我们给出一系列的数值模拟,通过和众多已有算法比较,以此展示了算法QADMM的卓越表现。并且在分布式平台SPARK上测试了算法DisQADMM。作为应用之一,我们通过给图片设置噪点,在此基础上使用QADMM解决熔断成组(fussed group)问题。相关的软件包QADMM/DisQADMM可以在https://github.com/ponda-donut/QRADMM找到。在第三章中,我们给出了针对高维协变量的稀疏的AFT模型带有l0惩罚的估计。我们提出的方法是基于Stute加权最小二乘准则和l0惩罚的融合。这个方法是一个计算的算法,基于根据KKT条件从原始信息和对偶信息以及发现根获得的活动集,它给出了迭代求解序列。我们提出了一个AFT-SDAR算法(用来支持检测和寻根)。我们理论方面一个重要的方面是我们直接关注基于AFT-SDAR算法生成的求解序列。我们证明了只要协变量矩阵满足温和的规律性条件,即使在高维线性回归的设置中,该温和的条件对于模型识别也是充分必要的,解序列估计误差以高概率指数衰减至最优误差范围。我们还提出了AFT-SDAR的自适应版本AFT-ASDAR,它以数据驱动的方式确定估计系数的支持大小。我们进行数值研究,以证明该方法在准确性和速度方面优于LASSO和MCP。我们还将提出的方法应用于真实数据集以说明其的应用意义。在第四章中,随着个性化医疗的高速发展,异质性效用分析变得越来越重要。同时,随着科学技术的发展,为了精准治疗,政府和其他机构都在很大程度上推动健康信息交互(HIE)。在这一章中,我们提出两种算法用来解决这一问题,其中随机块ADMM收敛快,对于一些对于数据隐私要求不高的情况可以得到运用。这里我们更多的关注通过在保证隐私和数据安全的前提下,综合分布式存储系统的数据正确的识别亚组信息。由此我们提出基于交替乘子算法的DisSRADMM算法。这一算法在分布式环境下,只需要传递节点计算结果,不要传递任何样本数据,对病人数据隐私有极强的保护。这一方法不仅可以处理大规模数据,同时可以忍受分布及其不均衡的亚组。这也就意味着,在实际应用中,即使一些传染病感染者分散在各个节点的医院,该类传染病的爆发也可以被及时的识别。我们运用一些数值模拟来证实方法的有效。我们的求解框架适用于解决一系列带有各种结构的异质性的回归问题,即使是在分布式环境下。在第五章中,我们对论文进行了总结,并对进一步的工作提出了展望。
其他文献
以中国上市企业集团为样本,本文深入研究了企业内部决策权配置对内部资源分配和外部监督的影响。以权威命令分配资源是企业区别于市场的标志,因而决策权配置是企业的关键特征。关于企业内部的决策权配置,两个研究问题至关重要:第一,对于企业管理者而言,如何配置决策权以提高企业内部资源分配的效率?针对这一问题,现有理论研究已经形成了较为完整的分析框架,但是由于决策权配置不易量化,现有经验研究视角有限,研究结论不一
学位
审计报告是审计师向财务报告使用者传递客户企业信息的主要媒介,其核心功能在于客观公允地反映公司的基本经济状况、财务报告质量与当下经营风险,促进利益相关者对企业经济业务实质的知晓与理解(De Fond and Zhang,2014)。但碍于旧版审计报告简单固定的内容与形式,难以为利益相关者及时有效地提供增量信息与决策参考。为弥补旧版审计报告缺乏增量信息的缺陷、提高审计过程的透明度,各国相关监管机构先后
学位
近年来,随机分析与随机微分方程(SDE)得到了迅速的发展,其理论广泛地应用于经济、生物及物理等领域.特别地,随机微分方程在数理金融中起着至关重要的作用.例如,在假定股票价格服从几何Brown运动的前提下,Black和Scholes于1973年提出了著名的Black-Scholes期权定价公式,为包括期权等在内的各种新兴金融衍生品的合理定价奠定了坚实的基础.人们从各种实际问题出发,导出了大量的随机微
学位
空间效应是统计学中常见的研究内容,也是一个热门问题.空间效应广泛地存在于计量经济学,金融工程,社会科学等领域.在许多情况下响应变量不光受到解释变量的影响,不同的相应变量之间也存在着相互影响的关系,因此在建模的过程当中考虑响应变量之间的空间效应是非常重要的.考虑用一个空间系数和空间权重矩阵,即同质性的空间效应,的研究已有很多,这种方式对空间效应的描述限制很大.而用多个系数来刻画空间效应的研究,即异质
学位
系统性风险的研究一直是一个热点话题,金融作为国家重要的核心竞争力,为实体经济提供资金服务、处于现代经济核心地位,为经济维持其动态循环提供了血液,保持金融体系的稳定性对经济来说至关重要。近几年以来,国际国内经济金融环境不断变化,我国经济发展已逐步转向以国内“大循环”为主体、国际与国内“双循环”相互促进的新格局,面对国际经济衰退、国内经济下行与转型、中美贸易摩擦、国际金融市场动荡以及2020年初“新冠
学位
贫困是人类社会的顽疾,摆脱贫困是全人类的共同愿望。然而,不可否认这一问题至今也未能得到彻底解决——发达国家始终挥之不去的贫民窟“景观”以及发展中国家长期高居不下的贫困人口数字似乎都在“控诉”着人类应对贫困难题的乏力。马克思主义自诞生之日起就致力于“改变世界”并以实现全人类的自由解放为奋斗目标,“消除贫困”自然成为马克思主义者及其政党的必然使命。在成立至今的百年岁月中,中国共产党始终高擎马克思主义伟
学位
日本作为一个典型的后进型资本主义国家,受地缘政治、传统文化以及社会思潮的影响,表现出了与正统资本主义模式的诸多差异性。这些差异性特征引起了国内外学者的广泛讨论,也形成了当代资本主义的代表性研究主题。由于日本资本主义发端于明治维新,成熟于两次世界大战期间,发展于二十世纪五六十年代,深受世界社会主义运动和马克思主义思潮的影响,日本马克思主义传播和研究也异常宽广与深远。研究日本资本主义独特模式,离不开其
学位
金融市场的方差结构一直都是理论界的重点研究对象.随着信息技术和金融市场的发展,高频数据越来越容易被获取.积分波动率矩阵的相关研究处于高频数据研究的核心地位,其在风险管理,投资组合以及资产定价等领域有着重要的应用价值.本文针对高维积分波动率矩阵开展了一系列的研究.主要解决了高频数据研究的多个困难点:高维多重交易数据,高维微观噪声数据,高维非同步交易数据以及高维异方差数据.借助随机矩阵的相关理论,本文
学位
自从国家政权产生之后,随着国家机关单位工作人员出现贪污浪费、营私舞弊、索贿受贿、享乐腐化等各种腐败行为,开展廉政建设就成为了国家政权的必然选择。从广义上讲,廉政建设是指国家机关单位为了实现政治状态、社会氛围和生活方式的清廉、公正、高效、勤俭而构建全面、系统、有效、协调的廉政治理体系;从狭义上讲,廉政建设是国家机关单位为了促使其工作人员在处理各种政事的过程中保持清廉、公正、高效、勤俭而专门在廉政制度
学位
思想政治教育作为一门学科,历经三十余年的发展,在理论建构与实践推进中均取得了重大的成就。随着社会结构转型以及网络社会的逐渐浮现,人们所处的现实空间结构发生了改变,出现了虚拟空间对现实空间的叠加,这种虚实结合的仿真空间致使人们的真实生活环境发生了改变,其所面临的实际问题及思考、解决相关问题的思维方式与行为方式也随之发生改变,这就为时刻关注并规训着主体人思想与行为的思想政治教育带来了挑战,其内容构成、
学位