论文部分内容阅读
纵向数据具有“组间独立,组内相关”的特点,能反映个体间的差异和个体内部的变化,在医学、经济学等众多领域具有不可替代的作用.随着计算科学技术的飞速发展,可获取的数据维数更高且数据结构更复杂.一方面,这将面临着同时处理纵向数据的复杂性和高维数据的计算量大、统计精度以及算法稳定问题,具有一定的挑战,是统计学研究的热点和难点.另一方面,这需要更灵活的模型来拟合复杂数据.同时考虑到广义变系数模型是广义线性模型的一种推广,既具有广义线性模型易解释的优点,又具有非参数估计的稳健性,在实际应用的灵活性更大.虽然高维纵向数据的变量选择问题已有很多文献研究,但关于广义变系数模型下的问题研究较少,特别是在超高维情况.因此,研究超高维纵向数据广义变系数模型的变量筛选问题具有重要的理论意义和实用价值.本文主要研究超高维纵向数据广义变系数模型的变量筛选问题,推广独立数据的确定独立筛选方法,同时考虑纵向数据相关性特点,提出基于广义估计方程的非参数独立筛选方法.该方法的主要思想是先基于协变量和响应变量之间的边际相关性建立边际广义变系数模型,利用非参数方法和广义估计方程进行估计,然后采用确定独立筛选的思想进行变量筛选.在一定的正则条件下,此方法能够得到确定筛选性质,即使在数据相关结构被错误指定.为了降低错选率并提高筛选的有效性,本文进一步结合惩罚方法和迭代的确定独立筛选方法提出迭代算法,并给出详细步骤.本文所提出的方法在三种不同相关结构下进行数值模拟,其模拟结果展示该方法考虑组内相关结构时的筛选和估计性能都比独立结构更优良,也进一步通过实例分析验证了此方法的有效性.