海量高维数据的分位数回归

来源 :东华大学 | 被引量 : 0次 | 上传用户:jackydmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分位数回归模型因有较强的鲁棒性且可以更全面地反映自变量与响应变量分布之间的关系,在一般规模数据的变量关系研究中被广泛应用。近年来,随研究的数据量与数据维数的增加,学者们开始探索其在海量高维数据中的应用。分位数回归在海量高维数据中的应用存在以下问题:(1)海量数据的存储与计算超出计算机内存。(2)维数过高导致模型选择的非重要变量增加。本文采用分而治之的方法,将整个数据集拆分为几个小数据集分别进行参数的计算,以减小内存的占用,并在求解的目标函数中增加L1正则项,帮助进行变量选择。同时,在分位数回归的求解中,本文将分位数回归模型目标函数最小化问题转化为误差项服从非对称拉普拉斯分布(ALD)的非线性回归模型的似然函数的最大化问题,从而将非平滑的损失函数转化为可微的二次函数,再通过极大似然的思想进行求解。而后将模型求解转化为含有缺失数据的目标函数求解问题,推导得到EM算法求解分位数回归的目标函数。结合分而治之与添加正则项的方法,最终得到求解海量高维数据分位数回归模型的PQREM方法,并通过数据模拟与实证检验了该方法的有效性。
其他文献
在我国经济的高速发展下人民生活水平显著提高,促使了第二产业不断调整升级以满足日益膨胀的市场需求。同时,人们开始注重生活品质的提升,对于日常用品的质量也提出了更高标准的要求。由于第二产业在我国产业结构中占据十分重要的地位,在其日产量巨大的背景下,质量控制成为生产过程中不可或缺的一环,缺陷检测具有十分关键的实践意义。目前大部分企业采用的方式是人工目测,但这种方式存在检测效率低、精度失真、稳定性差、成本
学位
近年来,科学技术的进步推动了“互联网+政务服务”的发展,越来越多的政民互动平台进入到大众的视野。这些平台是政府和群众之间交流的重要桥梁,群众可以通过其表达心声,政府可以通过其了解民意、汇聚民智。然而,随着大数据时代的到来,政民互动平台上的留言数量也迅猛增长。如何对这些繁杂的文本数据进行快速分类,从而实现政府和群众之间信息的有效交互成了一个亟待解决的问题。本文以某省政民互动平台的部分真实留言为研究对
学位
目的雷公藤多苷属于中药雷公藤的脂溶性化合物之一,用于多种免疫性疾病的治疗,尤其是狼疮性肾炎(Lupus Nephritis,LN)。本实验使用串联质谱6-plex(Tandem Mass Tag 6-plex,TMT6-plex)标记联合液相色谱串联质谱技术,测定雷公藤多苷治疗前后的LN患者血清蛋白质表达,发现显著性差异蛋白质,并探索差异蛋白质的生物功能及相关信号转导途径。揭示显著性差异蛋白质与雷
学位
由于分位数回归的稳健性,复合分位数回归变得越来越流行。此外,经验证,无论误差项的分布如何,复合分位数回归的效率相较于最小二乘回归高70%。最近几年,复合分位数回归被广泛的运用到了单指标模型的研究中,它在许多科学领域都有广泛的应用,如生物统计学、经济学和金融计量经济学。此外,各领域都呈现数据规模呈指数级别增长的特点,对于超高维数据的情况,本文提出了带有惩罚项的复合分位数回归方法用于单指标模型的参数估
学位
随着我国经济的日益强盛,我国的机动车总数量也在逐年递增,这使得高速公路的压力越来越大。为了缓解人们出行需求的急切增长所导致的高速公路交通供给与需求的矛盾,智能交通系统(Intelligent Transportation Systems,ITS)研究与建设得到关注,其中,高速公路的行程时间预测是智能交通系统实施过程中必不可少的环节,能有效提高公众出行幸福指数。本文的基础数据集是来自广州市机场三元里
学位
由于新冠疫情对我国经济的冲击和破坏,党和政府相继出台了诸多政策帮助小微企业抗击疫情,其中就包括支持商业银行向小微企业提供贷款。为了保障和落实政策,中国银保监会和中国人民银行对商业银行的企业规模划型办法提出了更高的要求。而互联网银行作为新兴的银行形式,因其自身的独特原因在开展企业划型判定上面临着诸多困难。本学位论文选题于工作中的实际问题,在深入分析的基础上,提出了一套集合科学技术与金融场景为一体的小
学位
以色列是世界上导弹防御技术发展较快,也是较早实战部署导弹防御系统的国家之一,这与其长期处于复杂的地缘政治环境,以及美国构建全球反导系统的需要密不可分。多年来,以色列坚持走自主研发与引进相结合的道路,已初步建成一个相对较先进的国家导弹防御体系。文中总结了以色列国家导弹防御体系的发展历程,描述了以色列国家导弹防御体系的作战流程,分析了以色列国家导弹防御体系的作战能力,展望了以色列国家导弹防御体系的发展
期刊
20世纪80年代行为金融理论悄然兴起,传统的资本资产定价模型(CAPM)和有效市场假说(EMH)的权威地位开始受到动摇。行为金融理论认为,内在价值并不是决定市场价格的唯一因素,很大程度上投资者的心理与行为也在影响着市场价格的变化。相较于国外,中国股票市场的投资者构成比较复杂,并且投资者受到信息的来源广泛。来自不同渠道的信息影响着投资者对股票市场的期望和决策,造成股票市场的波动。因此,正确的度量投资
学位
随着互联网技术的不断发展以及信贷市场的不断扩大,互联网金融借贷平台应运而生,且市场规模飞速增长。行业的迅速发展也伴随着巨大的风险,较高的违约率会给互联网金融平台带来巨大的经济损失和破产风险,甚至引发整个行业的系统性风险。所以,利用前沿的机器学习技术来构建高精度的信贷违约预测模型,对风险防控具有重要意义。已有的信贷违约预测研究中,在模型的特征选择方面主要基于贷款信息特征与用户借贷历史特征进行违约风险
学位
“快时尚”服饰始终追随当季潮流,具有价低、款式变化快等特点,是服装行业发展趋势之一。在移动互联网规模迅速扩大的背景下,如何把握中国快时尚迅速增长的市场特点,利用大数据技术挖掘潮流趋势,成为了目前中国快时尚企业的战略重点之一。本文以牛仔裤为例,根据民众在社交平台中发布的信息,通过文本语义挖掘技术从博文中提炼出牛仔裤快时尚相关的潮流特征,构建时尚特征趋势分析模型,从而识别其中的时尚特征趋势和时尚特征组
学位