基于大规模数据的分位数回归方法及应用

来源 :合肥工业大学 | 被引量 : 1次 | 上传用户:afengyu66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,随着数据生成、收集与存储技术的发展,以大样本与高维为典型特征的大规模数据将会大量涌现。这为探索客观规律带来了机遇,也为统计分析带来了挑战。在统计方法中,分位数回归常用来反映解释变量对响应变量整个条件分布的异质影响,能够细致刻画响应变量的尾部行为,是探索客观规律的重要手段与方法之一。常用的统计软件都可进行分位数回归,但受到计算内存和运行时间的限制,大规模数据分位数回归往往难以奏效。因此,在大数据背景下,研究大规模数据分位数回归方法,解决其建模过程中的技术难题,对于推广应用、揭示经济和社会的复杂模式等,具有重要的理论意义和实践价值。本文选取“基于大规模数据的分位数回归方法及应用”这一研究主题,综合应用统计学和计量经济学等学科知识,采取理论分析、数值模拟和应用研究相结合的范式,将经典的分位数回归模型从中小规模数据扩展到大规模数据,并取得了好的数值模拟与应用研究结果。论文的主要工作和创新点如下:(1)建立基于稀疏指数转移方法的大样本数据分位数回归(SETQR)。SETQR方法既能较快速地处理大样本数据分位数回归问题,又能获得精确的结果。首先,给出了其完整建模步骤,并在理论上证明了其参数估计的误差范围;其次,通过数值模拟,研究SETQR方法的估计效果、预测能力和运行时间,并将其与全样本分位数回归、SPC2和SPC3方法进行对比,发现前者在估计和预测结果上与后者基本相同,但在运行时间上,前者明显优于后者。最后,将SETQR方法应用于中国股票市场,研究股票收益与指令不均衡之间的关系,结果表明:滞后1期指令不均衡在高分位点处对股票收益具有正向影响且呈现上升趋势,而在低分位点却具有负向影响;控制当期指令不均衡后,滞后期指令不均衡对股票收益具有负向影响,且随着分位点的增加呈现下降趋势。这些结果将有助于投资者了解和掌握股市指令不均衡变化所预示的股票未来收益率的变动规律,指导其针对不同股票制定相应的风险防范措施和投资策略。(2)建立基于随机抽样算法的大规模数据Lasso分位数回归(SLQR)。SLQR方法既能处理大规模数据分位数回归问题,又能进行变量选择,从而提高模型的解释能力与预测精度。首先,给出了 SLQR方法的完整建模步骤,并证明了其参数估计的误差范围;其次,通过数值模拟,研究发现:在估计和预测能力上,SLQR方法与全样本Lasso分位数回归非常接近,而在运行时间上,前者明显优于后者;SLQR方法能够实现变量选择。最后,将SLQR方法应用于美国温室气体监测数据,研究各监测点温室气体浓度对温室气体合成浓度的贡献,结果表明:在估计效果、预测能力和变量选择能力等方面,SLQR方法与全样本Lasso分位数回归非常接近;部分监测点的权重为0,表明这些监测点的温室气体浓度对温室气体合成浓度没有影响;其余监测点的权重大都随着温室气体合成浓度的提高逐渐减小,这意味着在温室气体合成浓度的不同水平时,要针对不同的监测点进行重点关注。(3)建立基于分块估计方法的大样本数据分位数回归(BAQR)。BAQR方法不仅能够显著降低计算内存的需求,获得更加精确和稳定的估计和预测结果,而且能够处理流数据,及时获得估计结果。首先,给出BAQR方法的完整建模步骤,并理论上证明了BAQR方法参数估计的渐近性质:一致性、收敛速度和渐近正态性。其次,数值模拟结果显示:BAQR方法的估计和预测结果不仅与全样本分位数回归基本相同,而且明显优于SETQR、SPC2和SPC3方法。最后,将BAQR方法应用于中国劳动力市场,研究收入决定机制,结果表明:教育回报率为正,且其随着收入水平的提高逐渐降低;收入与工作经验之间呈现“倒U”关系,且随着收入水平的提高,收入经验曲线的弯曲程度逐渐减小。此外,劳动力市场上存在明显的性别和城乡歧视。因此,提高居民的教育水平和取消对女性和农村居民的就业歧视政策,有助于缩小居民收入差距。(4)建立基于分块估计方法的大规模数据Lasso分位数回归(BLQR)。BLQR方法不仅能够进行变量选择,获得更为“精致”的模型,而且能够适应于变量数目大于样本量的情形。首先,给出BLQR方法的完整建模步骤,并理论上证明了 BLQR方法参数估计的渐近正态性质;其次,数值模拟结果显示:在估计和预测能力上,BLQR方法不仅与全样本Lasso分位数回归类似,而且明显优于SLQR方法;BLQR方法能够实现变量选择。更重要的是,当有新数据时,BLQR方法只需要对新数据进行回归就可更新原有的估计结果,这表明BLQR方法特别适合流数据分析。最后,将BLQR方法应用于美国温室气体监测数据,确定各监测点温室气体浓度对温室气体合成浓度的贡献,结果表明:在估计效果、预测能力和变量选择能力等方面,BLQR方法的结果与全样本Lasso分位数回归的结果非常接近,且优于SLQR方法;与SLQR方法相比,BLQR方法计算的权重更精确稳定,这有助于监测机构制定更合理的监测机制,高效的监测温室气体浓度。
其他文献
电影《左右》讲述的是一场以挽救生命为名而展开的伦理与情感的博弈,让人观后对现代人的生存状态和生命意识有了更深入的思考。
<正>在犬病的治疗中,输血是常用的疗法之一。输血可迅速补充病犬循环血量和体液量,增强血液运氧能力,增加血液凝固性,刺激机体的造血功能。1输血作用1.1补充血容量犬静脉输血
水力压裂是储层进行增产改造的一大有效措施,压裂效果的好坏程度受不同因素的制约。就从地质角度及工艺角度两方面,研究分析了不同因素对压裂施工效果的影响机理,为压裂施工
目的:探讨多种教学方法在手术室临床护理带教中的联合应用效果。方法:对到手术室实习的232名护生综合运用入科教育、实习手册、多媒体教学、情景模拟教学法、一对一带教、小
<正>如何避免税务风险带来的经营损失,如何通过合理的手段最大程度地降低集团整体税收负担,成为我国建筑企业管理的新课题。"十二五"以来,中国建筑企业走出去的步伐逐渐加快,
电子商务中知识产权保护的公共政策问题,影响着各方力量和利益的平衡。立足于当下的社会历史现实,充分考虑到电子商务的特殊性,应当在法律实施的过程中贯彻过错责任、协调权
<正>施工企业的成本管理是一个复杂的工程,方圆图清晰地给出了项目盈利的关键环节。通过对方圆关系的探讨,可以准确把握项目责任成本管理的核心理念。面对激烈的市场竞争和社
针对火星和地球大气分子热力学和化学行为的差异性,采用理论分析和数值模拟两种手段,研究探测器进入过程高超声速流动的分子振动激发、离解反应及热力学和化学非平衡等真实气
目的:探讨乳腺癌患者存在的心理问题及原因,并提出科学合理的护理干预方法。方法:对105例乳腺癌患者心理状况进行观察并给予分析,根据患者心理问题原因实施相应的、有针对性
消毒杀菌技术是工厂化水产养殖系统中的有利保障。随着工厂化水产养殖技术的发展,新的消毒杀菌技术不断涌现,它们克服了传统药物消毒的残留和安全缺点,具有高效、经济和绿色