论文部分内容阅读
随着现代数据测量工具和存储技术的发展,使得我们能收集到更复杂、密集的观测数据,如何从海量数据中挖掘出有价值的信息已成为当前研究的热点之一。函数型数据分析(Functional Data Analysis,FDA)是处理高维、复杂数据的一种统计方法,其本质是将密集的观测数据视为无穷维函数空间中的元素进行处理。近年来,伴随着科学技术的发展,它在经济、气象、医学诊断、脑图像等诸多领域显现出越来越重要的应用地位。经典的函数型线性回归模型旨在建立函数型自变量与连续型响应变量之间的关系,这对函数型数据的信息挖掘有着重要意义。基于函数型线性回归模型,函数型线性混合效应模型可以同时捕捉函数型变量以及连续型变量的个体随机效应。伴随着随机效应的加入,会导致随机效应斜率函数估计的“维数灾祸”问题。另一方面,现有的函数型线性混合效应模型在应用中存在局限性。所以,本文旨在对现有的函数型混合效应模型进行研究和拓展,主要的工作和贡献包含以下三部分:第一,本文研究的若干函数型混合效应模型,都对函数型自变量的随机效应信息进行捕捉,这是目前绝大部分文献都没有考虑的,借助函数型主成分分析(Functional Principal Component Analysis,FPCA)的思想,对随机效应斜率函数进行截断函数型主成分展开,从而有效避免了随机效应斜率函数估计的“维数灾祸”问题。第二,本文研究了函数型广义线性混合效应模型,考虑响应变量服从指数族分布的情形,通过样条基函数将模型线性化,对剖面似然函数进行一阶拉普拉斯逼近得到参数估计结果。数值模拟以二项分布和泊松分布为例说明了限制极大似然估计方法的可行性。根据大样本理论证明了估计参数的渐近性质。最后,基于弥散张量成像(diffusion tensor imaging,DTI)数据集,探究了多发性硬化症对认知功能的影响,与其他模型相比,得到了更优的方差变异解释率。第三,本文研究了函数型半参数混合效应模型,在函数型线性混合效应模型中加入了非参数部分,在模型线性化的基础上,通过样条惩罚似然方法对参数和非参数部分进行估计。蒙特卡洛结果验证了估计方法的有效性,并且本文对函数型变量协方差矩阵的平滑预处理,使模型适用于存在测量误差的情形。最后,基于NMMAPS数据集,分析了臭氧污染对非意外死亡率影响的实证案例。