论文部分内容阅读
针对连续型数据中经常呈现的重尾现象以及计数时间序列数据的过度扩散等情况,本文讨论了若干有关的统计模型及其参数估计问题,涉及尺度混合正态回归模型、截尾学生t回归模型、混合负二项整值ARCH模型、Neyman-A型整值GARCH模型,发展了相应的非迭代贝叶斯后验抽样算法、EM算法等。得到了有关模型平稳性的充要条件及模型选择策略。与传统模型和算法相比,所考虑模型和算法在模拟和实例分析中都有满意的表现,在经济、医学等领域有较好的应用。1.尺度混合正态线性回归模型的非迭代贝叶斯抽样算法尺度混合正态(SMN)分布为一类重尾分布族,由于其稳健性,当数据中有异常值时,常用其替代正态分布。关于SMN线性回归及相关模型的统计推断,文献中有基于期望最大化(EM)算法的最大似然估计和基于马氏链蒙特卡洛(MCMC)抽样的贝叶斯推断。例如,Andrews(1974)、Dempster(1980)以及Lange(1993)发展了 SMN分布的(EM)算法,并讨论了它们在稳健回归中的应用。Fernndez and Steel(2000)讨论了 SMN 线性回归下的 MCMC)算法,Abanto-Valle et al.(2010)则从贝叶斯的角度分析了 SMN随机波动性模型。Rosa et al.(2003,2004)将SMN线性回归模型推广到SMN线性混合效应模型,并进行了贝叶斯推断。Garay et al.(2015,2017)将SMN回归模型推广到截尾的情形,并讨论了相应的EM算法和MCMC算法。由于其灵活性和易实施性,Gibbs抽样和其他MCMC抽样算法被广泛用于贝叶斯统计推断,但这些迭代抽样算法有其缺陷,实际应用中容易被忽视。其一,由迭代的MCMC抽样产生的样本很难做到独立;其二,很难确信迭代终止时抽取的马氏链是否达到收敛。Tan et al.(2003)提出了一种缺失数据结构下基于逆贝叶斯公式(IBF)的非迭代抽样算法,该算法可从后验分布中产生(近似)独立同分布(i.i.d.)的样本,所得样本可直接用于贝叶斯统计推断,从而避免了 Gibbs抽样的缺点。受Tan et al.(2003)启发,在第一章中,我们将非迭代抽样算法的思想应用到SMN回归模型中去,发展了非迭代贝叶斯后验抽样算法。该算法把SMN回归模型的稳健性与非迭代抽样的计算有效性结合起来,能够获得来自参数后验分布的独立同分布的样本,从而避免了迭代的Gibbs抽样算法的收敛性诊断问题。我们通过模拟来研究算法的表现,并用该后验样本进行模型选择和影响分析。最后,用该策略分析美国长期国债价格数据集,得到了有意思的结果。与正态回归及迭代的Gibbbs抽样相比,我们的策略在模拟和应用中表现都很好。2.截尾学生t线性回归模型的非迭代贝叶斯抽样算法截尾学生t回归模型((CTR)在处理异常数据时比截尾正态回归模型更稳健。第二章中,我们在贝叶斯框架下,发展了处理截尾学生t回归的非迭代抽样算法。算法的核心在于学生t分布的分层表示和截尾数据的缺失数据结构使得CTR模型很自然具有蒙特卡洛EM(MCEM)结构。首先,将观测数据添加两类潜变量数据,一类是将学生t分布表示成正态分布的混合表示的混合变量,另一类是截尾下的缺失数据,从而获得MCEM结构下的添加条件预测分布。然后,应用EM算法获得后验众数,用其得到最佳重点抽样密度,使得目标后验密度和重点抽样密度间的覆盖区域足够大。最后,两次应用IBF算法和抽样/重点再抽样(SIR)算法,获得来自观测后验分布的近似独立同分布的样本。该样本也被用在模型选择和影响诊断上,能够选择最佳的自由度,并识别潜在的异常值。我们通过模拟来研究CTR算法下的IBF算法的表现,并用该策略分析了两个截尾数据集,一个是左截尾的工资率数据,另一个是右截尾的绝缘寿命数据,发现所用策略比通常的截尾正态线性模型和Gibbs抽样要有效。3.基于混合负二项分布的整值广义自回归条件异方差模型的统计推断为处理过度分散和多峰的计数时间序列,本章中我们建立了基于负二项分布的混合整值自回归条件异方差模型。该模型有多个平稳或非平稳的整值自回归条件异方差过程构成,其中每个混合过程都有着负二项的条件边际分布。相对单个负二项整值自回归条件异方差模型而言,混合模型不仅仅可以处理过度分散,还能较好的处理多峰和具有分平稳混合过程。我们给出了模型具有一二阶平稳解的充分必要条件,也推导了模型的自协方差函数以及自相关系数的递推关系。充分利用模型中的混合性,发展了基于EM算法的最大似然法的参数估计。我们通过模拟研究了估计的表现。最后,通过三种模型选择方式:AIC、BIC和MRC,对实际数据建立模型进行实证分析。4.A-型Neyman整值广义自回归条件异方差模型的统计推断第四章中,我们讨论一类特殊的复合泊松整值广义自回归条件异方差模型--A-型Neyman整值广义自回归条件异方差模型。对于一般的A-型Neyman整值广义自回归条件异方差模型,导出了其一二阶平稳性条件。我们也特别给出了自协方差函数与自相关系数的递推关系,它们可以用来做部分模型的Yule-Warlker估计。对于模型参数的估计问题,我们考虑了三种估计方法:Yule-Warler估计(YW),条件最小二乘估计(CLS)和最大似然估计(MLE)。由于A-型Neyman分布的概率分布律的复杂性,极大似然方法中借助于EM算法来最大化似然函数。模拟结果发现,总体上三种估计方法表现都不错,尤其是当样本量增加时。最后,我们对弯曲杆菌感染的病例的计数数据进行实证分析,通过AIC和BIC准则选择了A-型Neyman整值自回归(NTA-INARCH)模型,并对数据做了拟合与残差诊断。