论文部分内容阅读
对于离散型数据的分析,本文提出了基于Student-t(T)过程下的广义混合效应模型,对于纵向离散型数据之间的相关性由潜在T过程来刻画,该模型为建立非线性随机效应提供了新的框架,T过程的重尾实现了可靠的推断并且该过程的协方差内核可以自适应的捕获变量上的特征。本文基于蒙特卡洛EM(MCEM)算法得到了有效的估计结果,并通过条件推断提出了一种预测方法。数值研究表明,与高斯模型相比,该方法对异常值具有鲁棒性。最后,本文用肾性贫血数据以及交通流数据为例做实例分析。该硕士论文的主要研究如下:第一章主要描述了本文研究的关于离散型数据的研究背景、研究现象以及主要工作,说明了本文的创新点,初步介绍了传统的广义混合效应模型以及本文涉及的主要推断方法。第二章介绍了本文重点研究的T分布的结构,证明了T分布的条件分布仍是T分布这一重要性质,对于一些数据的研究特性进一步给出了截断T分布及其相关期望的求解,为后面离散型数据的统计分析提供了理论基础,最后给出了本文重点研究的T过程下广义混合效应模型。第三章主要针对二元数据,构建了基于T过程下的广义混合效应模型,通过引入新的潜变量来更好的解释二元数据在实际生活中的意义。该模型的构建是基于传统的高斯过程模型再结合相关的正态尺度混合分布,然后对模型中的相关变量做出分布假设,推导中在EM算法的基础上进一步改进,运用MCEM算法进行统计推断,避免了复杂期望的求解。然后在模拟研究中,首先对模型中的参数进行了估计,研究主要针对的数据类型是有异常值和数据来自高斯过程这两种情形,比较了本章提出的模型与高斯过程模型下估计的结果以及相关变量的预测效果,实验表明本章提出的模型具有较好的稳健性。最后用肾性贫血数据做实例分析,同样运用本章提出的模型得到了较好分析结果,具有很好的实际意义。第四章主要针对的是计数数据,同样构建了基于T过程下的广义混合效应模型,在模型的推导中我们和上一章相同都是基于EM算法下进行相关的理论推导,推导过程中由于条件分布的复杂性,积分求解相对较困难,由此本章结合了MCEM算法以及Metropolis-Hastings(MH)抽样算法来进行统计推断。同样通过模拟分析证实了本章所提出的模型的可行性和推断结果的有效性,最后,本章将该模型运用至交通流数据中,得到了较为可靠的研究结果。第五章对整篇文章的模型、研究方法、结论以及现实意义做出一系列的总结,并且对今后关于离散数据的研究进行了展望。