论文部分内容阅读
一个成功的计量模型需要好的经济理论、数学方法和统计数据。样本信息的特点和质量作为研究中的重要一环,与计量经济模型的成功与否有直接的关系。有问题的数据信息可能直接导致计量结果的谬误,进一步导致对模型或者研究结论的错误判断。从实际意义上说,对数据量较少的经济数据的质量研究,有助于更为准确地认识国情、研究问题、制定政策。已有研究表明在实际经济中,异常的经济数据经常以聚集成片的形式出现。因此,研究出现异常点片时统计量对异常点的诊断效果具有重要的现实意义。但是,目前宏观经济统计数据诊断应用研究主要停留在单种数据类型以及对单个异常点或多个离散异常点的诊断等方面,有一定的局限性和理论不足。本文以宏观经济研究中常用的动态面板数据模型为基础,以GMM法作为估计方法,通过仿真模拟的方式,模拟生成了小样本数据。然后对生成的数据进行异常化调整,设置连续的异常点片,并使用学生化残差统计量以及Cook距离统计量进行异常点识别。通过重复试验,计算各种参数下两类统计量犯第一类错误和第二类错误的概率,以判断两类统计量小样本下对成片出现的异常点的识别效果。
本研究分为七个部分:第一部分为引言,主要对选题背景、研究意义及创新之处等方面做了描述,着重说明了本文研究异常点片的意义;第二部分为文献综述,回顾了国内外对数据诊断、异常点片、动态面板模型的研究情况:第三部分和第四部分均为理论模型的相关阐述,第三部分对本文使用的方程模型的具体形式及原因,参数的设定,参数的估计方法等问题进行了详述,第四部分阐明了数据诊断统计量的意义和使用方法等问题;第五部分在详述了仿真流程之后,通过对模拟数据的分析,得出各因素对两类诊断统计量的识别效果的影响;第六部分为实证部分,通过对实际数据的诊断进一步明确本文的研究主旨;第七部分为总结和研究展望,再次概括本文研究的主要内容及创新点,以及本文的主要结论,同时,在前文研究基础上提出了本文的不足之处以及未来可做改进的研究方向。
本文的主要结论有:从整体效果上来看,各统计量犯第一类错误的概率相对较小,学生化外残差统计量表现最佳。相比之下,各统计量犯第二类错误的概率都较大,两个学生化残差统计量表现非常相似,学生化内残差统计量略胜一筹。初步认为,在动态面板数据模型下,当多个异常点成片出现时,这三个诊断统计量存在数据污染问题,“掩盖”现象较“淹没”现象严重。从逻辑上来讲,样本点异常程度越小、样本量越小统计量犯两类错误的概率越大;异常点数量越多时,统计量犯第二类错误的概率越大。学生化残差统计量表现出与推论相对一致的特征,但是Cook距离统计量的变化趋势会在异常点异常程度不同时有所反复。异常点异常程度是对各统计量诊断效果影响最明显也最明确的因素。随着异常程度的增加,各统计量犯两类错误的概率均会减少,而且变化幅度较大,一般都在10%以上,这一点在单个异常点时表现的尤为突出。但是两类错误概率的降幅还是有所不同:异常程度的增加可以使各统计量“弃真”概率降到5%以下,但“取伪”概率下降程度有限。
本文的创新之处在于:首先,本文设置了异常点片。以往的计量经济学多侧重研究整个样本的性质,在对样本点进行检验时也多考查单个异常点或者离散的多个异常点的情况。通常来讲,随着异常点的增加,数据污染的问题会变得严重,而当异常点片出现时,污染现象可能更加严重。但异常点片在实际经济中是经常出现的,比如一次大的冲击会对随后几年的经济景气情况产生影响。因此,本文着重对出现异常点片时的异常点识别情况进行研究是具有现实意义的。而且,本文在设定异常点片的过程中,也包含了出现单个异常点的情况,更具有对比意义。其次,本文的研究建立在动态面板数据模型上。动态面板数据模型集合了时序数据和横截面数据的两方面的优势,作为宏观经济研究中的重要模型,以动态面板数据模型为基础进行仿真模拟对后续的实证研究有很大的借鉴意义。第三,本文研究的数据对象具有小样本的特点。一般来讲,大样本和小样本具有不同的统计性质,而宏观经济数据一般都具有小样本特点。这样,研究诊断统计量在小样本下对异常点的识别效果是很有意义的。