论文部分内容阅读
大数据时代的到来和蓬勃发展给现代统计分析理论带来了机遇也带来了挑战.大数据的特征表现在不仅是数据量大或维数高,而且往往呈现分布式存储的形式.在统计推断问题中,分位数回归作为近代统计中研究的热门方向,在处理回归问题中相比传统的均值回归具有独特的优势.它能够更加全面的描述解释变量对响应变量条件分布的全貌,而不是仅仅分析响应变量的条件期望(均值),也可以分析解释变量如何影响响应变量的中位数,分位数等.它能更加细致地刻画响应变量的尾部分布规律.分位数回归推断在一般的统计软件中都能操作,但是,在当前的大数据背景下,由于受到计算机存储和传输等方面的原因,传统的方法和软件已经变得不可行,因此利用分位数回归模型解决大数据回归问题也面临着巨大的挑战,解决这类问题具有深刻的理论意义和现实意义.如何利用这些分布式数据做出有效的统计推断自然是如今研究的热点问题之一.为了对分布式数据做出有效的分位数回归推断,同时,我们还要尽可能地降低数据传输的费用问题.我们提出了一种有效交互分布式方法解决了大数据下的分位数回归问题,我们研究了两种不同情形:(1)在处理低维的大数据分位数回归问题时,为了近似总的损失函数,我们定义一个替代的损失函数,它只依赖于主机上数据和其它机器局部数据的次梯度.在每一轮的交互中,我们只需要主机上计算M-估计问题,而其它机器只需要计算局部数据的次梯度.因此数据传输成本显著减少.我们采用当今最流行的交替方向乘子(alternating direction method of multipliers,ADMM)算法来解决目标函数不光滑带来的挑战.在理论上,我们在一般的条件下得到了分位数回归的有效交互分布式估计的相合性和渐近正态性,理论结果表明,只要我们选取较好的参数初始值,可以达到与将全部数据合在一起分析的Oracle方法相同的估计精度.(2)在处理高维稀疏的大数据分位数回归做变量选择问题时,在每一轮的交互中,我们只需要一台主机采用近似的ADMM算法来计算一个稀疏的带惩罚的分位数回归问题,其它机器只需要计算局部数据的次梯度.我们将提出的方法应用到变量选择常见的两种惩罚函数,包括ALasso和SCAD.在理论上,我们在一般的条件下得到了惩罚的分布式分位数回归做变量选择的渐近性质.随机模拟和真实数据结果表明,在处理低维的大数据分位数回归问题时,相比基于分块平均的大样本分位数回归方法(BAQR)和Oracle方法,我们的估计方法只需要经过少数几次交互计算就可以达到明显地要比BAQR方法有更小的估计误差,而这在异方差模型下差异更加的明显,在有些情形下甚至比Oracle方法估计的更加准确.在高维稀疏的大数据分位数回归做变量选择问题时,我们的方法可以在不损失任何统计准确度的情形下,得到的预测误差仍然可以与将全部数据一起分析的Centralized方法一致.