论文部分内容阅读
一、选题意义 本论文对动态线性混合模型的参数估计进行了研究。线性混合模型是最重要的回归模型之一,通常用于纵向数据的分析,因为纵向数据分析的许多问题都可以纳入线性混合模型的框架之下进行讨论。纵向数据是把时间序列沿空间方向扩展,或把截面数据沿时间方向扩展的二维结构的数据集合。这种多重观测既包括对样本单位在某一时期(时点)上多个特性进行观测,也包括对该样本单位的这些特性在一段时间的连续观测。与单纯的时间序列或截面数据相比,纵向数据为研究工作提供了更大的样本点,从而有利于改善参数估计量的有效性和更深入分析复杂的经济问题。 二、论文的主要内容 本论文将讨论更一般的动态纵向数据模型,也就是动态线性混合模型的参数估计以及应用。和一般线性混合模型一样,动态线性混合模型也可以分为固定效应模型和随机效应模型两种情况。对于这两种情况,讨论了模型的参数估计以及各种参数估计量的性质,最后给出了一个实际数据分析。 首先,本文在固定效应模型和随机效应模型两种情况下讨论了动态线性混合模型的参数估计量的性质。 1、对于固定效应动态线性混合模型,推导出三种参数估计量,即最小二乘虚拟变量估计量(LSDV)、工具变量法估计量(Ⅳ)和极大似然估计量(ML)。讨论了最小二乘虚拟变量估计量(LSDV)、工具变量法估计量(Ⅳ)和极大似然估计量(ML)的优良性质,即讨论了这三个估计量的无偏性,并在一般设计点列和一般矩条件下,研究了估计量的相合性和渐近正态性,得到如下的结论: (1) LSDV是有偏估计量,Ⅳ是无偏估计量。在误差项服从正态分布的情况下,LSDV和ML等价; (2) LSDV和ML不是相合估计量,Ⅳ是相合估计量; (3)在满足一定条件下,LSDV(ML)和Ⅳ具有渐近正态性。 最后通过Monte Carlo模拟对前面得到的各种参数估计量小样本性质进行研究,得到结论: (1)对于m=5和m=20两种情况,当时间序列长度较短时,即10≤ni≤50时,从整体来看,固定效应模型参数的最小二乘虚拟变量估计量与工具变量估计量效果都不错,均值比较接近真值,标准差小。从整体来看,最小二乘估计量略优于工具变量估计量。 对于m=5和m=20两种情况,当时间序列长度较长时,即150≤ni≤200时,从整体来看,仍然是最小二乘虚拟变量估计量优于工具变量估计量。 (2)对于m=5,当时间序列变长时,相对于较短序列时的估计量而言,最小二乘虚拟变量效果改进不明显,工具变量估计量反而变差,最小二乘虚拟变量估计量的估计效果略好于工具变量估计量。 对于m=20,当时间序列变长时,相对于较短序列时的估计量而言,最小二乘虚拟变量估计量效果改进明显,工具变量估计量反而变差,并且最小二乘虚拟变量估计量的估计效果明显好于工具变量估计量。 总之,动态线性混合模型的参数估计量中,固定效应模型的最小二乘虚拟变量估计量效果略优于工具变量估计量,且随着时间序列的增长(ni→∞),最小二乘虚拟变量估计量的估计效果变好。 2、对于随机效应模型,推导出四种参数估计量,即最小二乘估计量(LS)、工具变量法估计量(Ⅳ)、极大似然估计量(ML)和限制极大似然估计量(REML)。讨论了最小二乘虚拟变量估计量(LSDV)、工具变量法估计量(Ⅳ)和极大似然估计量(ML)的优良性质,即讨论了这四个估计量的无偏性,并在一般设计点列和一般矩条件下,研究了估计量的相合性,得到结论: (1) LS和REML是有偏估计量,Ⅳ和ML是无偏估计量。 (2)在满足一定条件下,LS不是相合估计量,Ⅳ,ML和REML是相合估计量。 最后用Monte Carlo模拟对这些估计量的小样本性质进行了研究,得到如下 结论: (1)对于m=5和m=20两种情况,时间序列长度较短时,即10≤ni≤50时,从整体来看,按估计方法的优良性排序为:限制极大似然估计量、极大似然估计量、工具变量估计量和最小二乘估计量。极大似然估计量和限制极大似然估计量的均值在真值附近,估计均值精度也非常好;工具变量估计量的均值靠近真值,估计均值精度也较好,而最小二乘估计量的均值偏离真值,估计均值的标准差很大。 对于m=5和m=20两种情况,时间序列长度较长时,即150≤ni≤200时,从整体来看,按估计方法的优良性排序为:极大似然估计量、工具变量估计量、限制极大似然估计量和最小二乘估计量。极大似然估计量和工具变量估计量的均值在真值附近,估计均值精度也非常好;限制极大似然估计量的均值靠近真值,估计均值精度也较好,而最小二乘估计量的均值偏离真值,估计均值的标准差很大。 (2)对于m=5,当时间序列变长时,相对于较短序列时的估计量而言,均值与真值的逼近程度,参数估计量效果的改进不明显。极大似然估计量的估计效果明显好于工具变量估计量、限制极大似然估计量和最小二乘估计量的效果。 对于m=20,当时间序列变长时,相对于较短序列时的估计量而言,均值与真值的逼近程度,参数估计量效果的改进明显。极大似然估计量的估计效果明显好于工具变量估计量、限制极大似然估计量和最小二乘估计量的效果。 总之,随着时间序列的增长,随机效应模型的极大似然估计量和限制极大似然估计量效果明显优于另两种估计量的效果,且当截面单位固定时,估计效果与时间序列的长短关系较大。 最后给出一个实例分析,讨论了城镇居民收入差异对消费结构的影响分析。通过和不同模型(线性回归模型,静态纵向数据模型)的解释能力和预测能力进行比较,说明动态线性混合模型在研究较长的纵向数据上面具有一定优势,并且在模型比较的基础上提出一些改善居民消费的建议。 三、论文的创新点与未来研究问题 本文研究的重点在于动态线性混合模型的参数估计。本文以理论研究为主,实证分析为辅,将采用EM算法、Newton-Raphson(N-R)算法对动态线性混合模型的参数进行估计,利用强逼近、弱收敛和矩阵变换等工具证明估计量的大样本性质,然后采用Monte Carlo模拟来比较不同参数估计量的性质。 1、本文从理论和应用上进行了创新,主要有: (1)对于动态线性混合模型,在固定效应模型和随机效应模型两种情况下分别推导出最小二乘(虚拟变量)估计量和工具变量估计量,并证明了参数估计量的有关性质。 (2)对于随机效应动态线性混合模型,将EM算法引入到极大似然估计量的推导中,从而得到参数的极大似然估计的迭代公式,并从理论上证明该估计量的大样本性质。 (3)对于随机效应动态线性混合模型,利用Newton-Raphson(N-R)算法得到参数的限制极大似然估计量,从理论上证明该估计量的大样本性质。 (4)通过Monte Carlo模拟数据,对固定效应模型和随机效应模型两种情况下的参数估计量的小样本性质进行了比较。 (5)将从理论上探讨出的动态线性混合模型的参数估计量应用于实际数据分析中,通过和线性回归模型与线性混合模型比较,得到一些结论。 2、可以继续研究的问题 (1)动态线性混合模型的参数估计量的假设检验; 在统计科学中,统计模型在数据分析、统计推断和预测等方面扮演重要角色,从实际现象中获得数据后,通常需要建立一个"好模型"来拟合这些数据。根据统计模型,可以获得一些描述实际现象的重要信息,这些重要信息通常通过少量的几个参数来描述。对于动态线性混合模型,在实际应用中得到的参数估计量非常重要,它是进行解释和预测的基础。但是从本文的应用可以看出,如果参数估计量没有通过假设检验,那么就需要对模型进行调整,在统计检验上都得到通过的解释变量对于模型解释和预测具有重要意义。并且检验统计量的形式,检验功效值得下一步进行研究。 (2)动态线性混合模型的参数估计量的影响分析; 选择模型的时候,难免面临一些问题,如:什么是"好模型"?数据中是否存在"强影响点"?当它们被删除后,统计推断是否会有较大的改变?如何探测这些所谓的"强影响点"?当把强影响点的定义可以推广到纵向数据分析中时,影响分析可以分为两个水平:个体水平的影响分析和观测值水平的影响分析。对动态线性混合模型进行影响分析将是一个研究重点,这个在本人的另一篇论文《动态线性混合模型的影响分析》中进行了深入讨论。 (3)误差项和随机项是异方差的动态线性混合模型; 由于本文仅仅讨论了误差项和随机项是同方差的情况,而现实中异方差的情形是存在的,对于这种情况的讨论是很有必要的,因此,可以预见,误差项和随机项是异方差的动态线性混合模型是未来可以继续研究的问题。 (4)有度量误差或隐变量的动态线性混合模型; 由于很多数据收集存在困难,数据可能存在偏差;而且很多时候有些解释变量是不可测量的,这时候需要有外生显变量对它进行解释。因此,和结构方程模型一样,从模型形式上看,需要增加测量模型。这样,对于模型参数估计,假设检验都是值得研究的问题。