论文部分内容阅读
生物医学、统计遗传学、工程学、经济学、教育心理学、社会学等学科领域中存在大量的聚类数据(Clustered Data)或相关数据(Correlated Data),随机效应模型是分析此类数据的强有力工具。当聚类数据近似服从正态分布且能用线性的结构来描述时,线性随机效应回归模型是分析该数据的有力工具。但是,随着科学技术的迅猛发展,人们对数据处理精度的要求越来越高,遇到不是正态或不能用线性结构来描述的聚类数据越来越多,这在客观上推动了随机效应模型的理论和方法的发展。为了适应上述发展的需要,随机效应模型已从最初的线性随机效应模型逐步拓展到非线性随机效应模型,广义线性随机效应模型,指数族非线性随机效应模型,非线性再生散度随机效应模型等等。
作为线性随机效应模型的推广,广义线性随机效应模型可用于连续数据和离散数据的分析,特别是后者,如属性数据、计数数据。这在实用上有着非常重要的意义。另外,其似然函数的形式较复杂,且含有难以处理的高维积分,只能用数值的方法对它进行参数估计。因此,线性随机效应模型中的很多方法和结论不能用于广义线性随机效应模型,而广义线性随机效应模型中的很多方法和结论可以应用到比它更广的一些模型中去。这些特点决定了它在统计学中的重要地位。本文将着重讨论该模型的统计诊断问题。
论文第一章给出统计诊断的背景,随机效应模型的简要介绍和论文的大纲。
在第二章,基于似然函数框架,对于广义线性随机效应模型,我们导出了广义Cook距离,并用它们分析了两组数据。
第三章致力于Q-函数方法在广义线性随机效应模型诊断中的应用,广义Cook统计量QD<,i>和QD<,j>将导出。这里,QD<,i>是基于Q-函数的二阶微商矩阵,QD<,i><*>是基于Q-函数的二阶微商矩阵的期望。这两种统计量很便于实际应用,特别是QD<,i><*>由于它可以分解为三个相互正交的部分,分别对应于固定效应、方差分量和讨厌参数,它具有简洁的解析形式和好的统计解释。QD<,i><*>的这一特点对于研究子集参数的影响问题是十分有用的。
第四章讨论广义线性随机效应模型个体水平和观测值水平两个水平之间的统计诊断的关系,我们给出了两个水平的广义Cook统计量,实例分析说明,包含有影响观测值的个体比那些不包含任何影响观测值的个体更可能成为影响个体,而影响观测值比较可能包含于影响个体中。在第五章,我们先利用蒙特卡罗方法对广义线性随机效应模型的边缘对数似然函数进行逼近,在此基础上,研究了广义线性随机效应模型的局部影响分析。
拟蒙特卡罗(QMC)方法被广泛用于解决数值分析和统计学中的各种问题,比如数值积分,试验设计,参数估计等。它的基本思想是用确定性的超均匀分布序列(或称低差异序列:low-discrepancy sequences)代替蒙特卡罗方法中的伪随机数序列进行计算。潘等(2004)研究了广义线性随机效应模型的拟蒙特卡罗估计,在本文第六章,我们改进了潘等提出的算法,并推广了拟蒙特卡罗估计方法的应用范围。
全文的结论以及进一步研究的建议将在第七章给出。
最后,本文中用到的所有数据集和一些matlab程序将列在后面的附录里。