论文部分内容阅读
在对社会学,生物学,经济学以及农业等学科的连续性纵向数据研究时,线性混合效应模型是很受欢迎的研究工具。这是因为模型中随机效应和误差的分布往往假设为正态分布,这样我们就可以很方便的使用极大似然估计方法(MLE)或者限制极大似然估计方法(RMLE)来研究模型中的参数性质。特别地,人们可以使用SAS,R等统计软件直接分析数据。然而,随着对线性混合模型研究的深入,人们发现实际数据中正态性假设并不完全成立,特别是随机效应的正态性假设更值得怀疑。如何检验模型中的分布的正态性,以及拒绝正态性假设后,如何估计模型参数,研究随机效应和误差的局部性质是本文要研究的问题。在论文的第一部分,我们将研究线性混合效应模型中随机效应的正态性假设。在文献中,基于经验特征函数,Epps&Pulley(1983)提出了对一维随机变量的正态性假设的拟和检验,Baringhaus&Henze(1988)解决了多维随机向量的正态性检验问题,与此类似的检验被统计学家统称为BHEP检验。这里,我们推广Henze&Wanger(1997)提出的BHEP检验方法来构造我们的检验统计量。因为模型中随机效应是不可观测的,我们只有使用相应的最优线性无偏预测(BLUP)。研究发现,文中的检验统计量在原假设下渐近收敛于一个零均值的高斯过程,并且对以参数速度收敛到原假设的被择分布特别敏锐。因为极限高斯过程不易用来模拟检验统计量的临界值,我们提出了条件蒙特卡洛模拟方法(CMCT)。为了直观的研究我们的检验统计量的功效,我们给出了不同分布假设下,检验的p-值,并与文献中已有的两种检验方法作了比较。此外,我们还进行的了一些实际数据分析。经过上述检验方法分析实际数据,我们发现正态性假设确实不完全成立。在论文的余下部分,我们来研究非正态假设下如何估计模型的未知参数,以及研究随机效应和误差的局部性质,也就是估计它们的一些高阶矩,文中我们主要研究了前四阶矩的非参数估计。首先,当模型中的随机效应是一维的并且其协变量都是1时,我们利用模型的特征构造了前四阶矩的估计方程,而后给出相应的非参数估计。通过对所有估计的渐近性质的研究,我们发现,如果每组实验的次数也能足够多时,我们的估计拥有最小的渐近方差。在这种意义上说,我们的方法优于第一个研究此问题的文献Cox&Hall(2002)提出的估计方法。此外,在他们的模型下,我们也可以从另一个角度更简单的构造他们的估计方程。通过一些简单的模拟,也证实了我们的估计方法的优越性,特别是对误差的高阶矩的估计。但是,无论我们的估计方法或者他们的都很难推广到更高阶矩的估计或者随机效应为多维时更一般的情形。正如Jiang(2006)所说的那样,对于这种一般的模型,我们很难建立估计方程。为了解决这个问题,我们提出了一个简单的矩估计方法。主要推导工具是矩阵中Kronecker乘积,矩阵拉直运算以及数学期望。我们研究了随机效应和误差的前四阶矩估计的渐近性质,并给出了简单的模拟结果。比较上述两种估计法,我们发现:当随机效应是一维的时侯,误差的各阶矩的估计不依赖不可观测的随机效应,随机效应的估计也不依赖误差,因此,估计的渐近方差结构特别简单也是最优的;而当随机效应是多维的,因为随机效应的协变量的影响,我们没有办法针对随机效应和误差的各阶矩分别建立估计方程,这导致所得的估计的渐近方差或者协方差矩阵特别复杂,从而估计的效果不是很好。因此,我们提出了正交的矩估计方法。我们知道,对任意一个矩阵A,只要它不是行满秩的就会存在正交矩阵B使得BA=0。例如,人们经常使用的QR分解方法找到正交矩阵B,更直接地,B可以取为矩阵A的正交投影矩阵。利用矩阵的这个性质,我们首先把模型中随机效应部分去掉,根据得到的只含有误差的模型来估计误差的各阶矩;而对于随机效应的各阶矩的估计,我们没有办法也同样地去除误差,只好利用前面提出的估计方程,插入误差的各阶矩的正交估计而得到相应的估计。