论文部分内容阅读
高维数据在经济、金融、统计、生物基因工程等领域出现的频率越来越高,刻画高维数据潜在的模型结构是分析高维数据的基础.统计学中,回归是刻画数据模型结构一种常用的模型,常用的有最小二乘回归和分位数回归等.随着统计技术和计算能力的发展,在处理多维数据甚至高维数据时,回归模型的变量选择问题已经由传统的最优子集回归方法和逐步回归方法发展到正则化框架.Tibshirani[89]在回归模型中引入了L1惩罚函数,即著名的Lasso来对自变量进行选择,开创了正则化框架的先河,随后得到迅速发展和演化,Fan & Li [30]提出了SCAD惩罚函数来克服Lasso选择模型过大以及估计偏差较大等问题,并提出“Oracle “性质来作为变量选择的评价准则.自此,正则化框架成为处理回归问题变量选择的热门手段.本文将正则化框架引入Expectile回归(Newey&Powell[70]1987提出)中,做了以下两个方面的研究:·多维情况下,研究了带有SCAD惩罚函数的Expectile回归在变量选择和回归参数估计等方面的表现,并证明该方法具有“Oracle”性质;·高维情况下,研究了在回归误差具有有限阶矩的情况下,带有惩罚SCAD项的Expectile回归在变量选择上的表现,证明了理论“Oracle”解是相应非凸优化问题的一个局部解.同时,我们采取CCCP算法来求解这一非凸优化问题,并证明了由CCCP算法得到的解在经过有限步迭代之后会依概率收敛到“Oracle”解,从而将由算法给出的局部最优解和理论“Oracle”解统一联系起来.另外,当高维数据存在异方差时,采用正则化的Expectile回归能够识别出导致异方差现象的协变量,而这一性质传统的最小二乘方法并不具有.本文的另一个工作是在数据驱动的非参数框架下对Mean-CVaR最优资产组合问题的研究,特别地,当投资允许卖空时,通过引入投资策略L1限制条件将变量选择和最优资产组合问题结合起来.本文从理论角度分析了以CVaR为风险度量的最优资产组合的渐近性质,从最优解和有效前沿边界的相合性等方面证明了该非参数框架下的Mean-CVaR模型可以很好地逼近理论模型.