论文部分内容阅读
近年来,半参数回归模型在统计方法中逐渐盛行,无论是理论研究还是实际应用,都受到了广大学者的关注.部分线性单指标模型(PLSIM)是一种非常重要的高维半参数模型,它能够有效地解决数据高维性问题,并保持良好的可解释性和较广的适应性.目前,关于PLSIM模型的估计方法大多基于均值回归,然而当数据存在异常值、随机误差为异方差或者偏离正态分布时,模型的估计精度则会大大下降.另外,国内外学者关于部分线性单指标模型的研究更多建立在变系数和局部多项式方法上,当变量维度较高、数据量较大时,模型的计算速度则会变得很慢.因此,本文结合分位数回归和半参数方法研究了部分线性单指标分位数回归模型(QPLSIM)及其变量选择,对所建立的模型采取B样条函数逼近,引入MCP惩罚函数,并基于迭代加权最小二乘与单纯形搜索法给出了具体的两阶段估计算法.在一定条件下,本文证明了模型参数估计的渐近正态性与变量选择的oracle性质,并通过数值模拟和实证分析验证了所提方法的有效性,在保证准确率的同时,大大提高了模型的计算速度.此外,数据往往是由来源、格式或主体不同的数据集合并而成,且呈现出高维性和稀疏性.基于多个数据集,如何建立合适的统计方法来挖掘不同子样本之间的同质性与异质性,并实现降维去噪是大数据分析所面临的重大挑战之一.整合分析能够同时考虑多个数据集,避免因时间、地域等因素所引起的模型不稳定问题,是研究数据差异性的有效方法.它将每个协变量在所有数据集中的系数视为同一组,引入惩罚函数对系数组进行双层压缩,研究变量间的关联性并实现降维.因此,本文在QPLSIM模型的基础上继续深入研究,提出了基于整合分析的部分线性单指标分位数回归模型(IAQPLSIM).针对异构数据,本文采用了同时考虑组内与组间变量选择的复合惩罚函数(Composite MCP),在一定条件下证明了模型变量选择的oracle性质,并通过数值模拟和实证分析验证了所提方法的有效性.最后,将IAQPLSIM模型与QPLSIM模型的结果进行比较,发现前者的估计精度和变量选择准确率更高,模型的拟合效果更好。