论文部分内容阅读
在数据分析研究过程中,随着计算机技术的迅速发展,人们会经常遇到高维数据,这些数据不仅表现出异方差特征明显,并且预测变量被分组,例如在生物应用中,检测的基因或蛋白质可以按生物作用或生物基因分组医学途径。常见的统计分析方法,如方差分析、因子分析和基于集合的函数建模,也自然表现出变量分组。针对高维数据分析处理方法,目前相关研究文献很多且方法较为广泛。在许多应用中,所获得的数据集不仅具有高维数据特征还显示异方差状态,这时更适合考虑使用分段线性回归模型对每个数据段进行建模,而每个数据段由变点分隔。但是目前针对具有变点特征的数据,大部分研究都集中在低维数据状态下,对于高维数据变点模型关注较少。近年来,关于变点模型和高维回归的相关文献,大多数情况下都是在具有零均值误差和有界方差条件下构建模型。另一方面,众所周知,模型中存在异常值可能会在最小二乘估计方法中引起较大误差。尤其是当误差分布并不是高斯分布或其分布尾部足够大时,在研究问题时并不清楚变点前后两个时刻误差是否发生变化,还会在检测变点时产生问题,这时更适合考虑分位数回归方法,分位回归方法在高维数据分析中具有其独特魅力。在多变点模型中,变点估计可能会影响估计量属性,研究变点模型的困难首先来自于两类参数的相关性:回归参数和变点参数。但是对于高维数据分位变点回归方法的研究较少,很多时候解决方法是先结合实际,再通过一次次实验来得到结果,这是相当麻烦的,并且当变点参数于每段估计参数相关时或变点前后误差发生变化时,这种方法太过繁复。因此为了方便实际问题中的应用,需要同时考虑变点模型的两类参数问题,且简便在高维问题中的应用。为了研究高维且存在变点的分组解释变量其性质和过程,既要确定回归变量重要组,又要在这些组之间建立层次结构。在回归问题中,协变量可以自然分组,Group Lasso惩罚是一种很有吸引力的变量选择方法,因为它尊重数据中的分组结构。利用高维变点分位回归,即研究多阶段模型发生变化时的变点问题,本文首先构建高维变点分位回归模型并使用自适应Group Lasso惩罚方法对模型的变点和系数参数进行了估计;其次对于参数估计量的渐近性和其Oracle性质进行研究,这涉及到相关变量组的选择问题,而不需要通过假设检验。对于在变点未知的情况下,本文利用SQ_?检验方法对变点进行检测和判断。最后通过蒙特卡罗模拟数值结果表明,与文献中其他方法相比,该方法在高维分位变点模型中具有较好性能。最后利用实际数据分析说明了该模型和方法的有效性和实用性。