线性模型中强相关变量的效应估计

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yxleicht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于线性模型的准确的统计推断和预测,正确且精确的参数估计是很重要的。在线性模型中,未知参数的一般估计步骤都是基于高斯-马尔科夫定理。这一定理确保了最小二乘估计量是具有最小方差的线性无偏估计量。一般线性模型的主要假设之一是:预测变量之间是线性独立的。但是,在线性回归中预测变量经常出现“几乎线性相关”的情况,这就是所谓的预测变量共线性问题。这一问题的来源在很多线性回归分析的书中都有很好的记载,主要可以概括为四类:应用的数据收集方法,模型或者数据总体的约束,模型的指定和过定义模型。理解共线性的来源对于数据的分析和相应模型的解释是很有帮助的。通常来说,在很多不同的领域(比如无线通信系统和纵向数据分析),强相关的预测变量是很常见的。例如,天线阵列中具有一定天线间距的两个信号是相互关联的。纵向数据分析通常涉及对一个对象进行多次测量。在这种情况下,同一个对象的多个测量值是相关的变量。当用作是预测变量时,这些具有强相关性或极强相关性的变量引起多重共线性。这种多重共线性问题导致这些强相关预测变量的无偏估计量具有异常大的方差,甚至错误的符号或者很大的绝对值,从而产生误导性的统计预测和推断。关于诊断多重共线性存在的方法,检验预测变量的相关系数矩阵是一个很简单的方法。通过观察相关系数矩阵的非对角元素,我们可以很容易找到一对强相关的预测变量。可惜,这个方法只对发现一对预测变量之间的强相关性有帮助。如果多个预测变量是高度相关的,则可以用预测变量的方差膨胀因子(VIF)来识别和消除潜在的冗余变量。一个或多个大的方差膨胀因子(VIFs)说明存在多重共线性。此外,相关系数矩阵的特征系统分析是一种有效的多重共线性诊断方法,奇异值分解是一种类似的方法,它利用方差分解比例给出了关于特征向量贡献于多重共线性的更具体的信息。检验相关系数矩阵的条件数和条件指标也是衡量多重共线性存在的一种好方法。其他诊断方法有时也有用,如:系数矩阵的行列式和系数的符号或大小。由于强相关预测变量的最小二乘估计量的不准确性,研究者们想出了一些典型的方法作为弥补,例如岭回归、偏岭回归、贝叶斯估计和主成分回归分析。可是,这些方法有一些不足。例如,岭回归同时缩小了所有参数,不论它们中的一部分是否相关。岭回归以增加偏差为代价来实现稳定性,并且人为主观地选择惩罚参数。而且,所有这些已经存在的方法都要比普通最小二乘回归更加复杂。尽管由于多重共线性,强相关预测变量的个体参数估计是不精确的,具有很大的方差,甚至错误的符号或者很大的绝对值,但是,令人惊讶的是,这些强相关变量的某些线性组合,被称为群效应,是可以被精确估计的。有了这一知识,我们着重关注这些线性组合的准确估计,而非个体参数/效应的估计。与岭回归、贝叶斯估计、主成分回归分析等处理由强相关预测变量引起的多重共线性的方法相比,我们利用多重共线性对参数估计的影响,精确估计这些变量的群效应。在理论和数值上,我们致力于找到线性模型中强相关预测变量的最优群效应和可估计群效应,以及它们之间的关系。通过对均匀相关模型(预测变量之间的相关系数都相等)的理解,我们建立了预测变量呈指数型相关的线性模型,称为指数相关模型。在多信道接收的无线通信系统中,相邻子信道间的相关性要高于远端子信道间的相关性。这可以用我们提出的指数相关模型来描述。利用这一优势,指数相关模型经常被用于各种无线系统的通信问题和性能分析。拥有刻画预测变量之间相关性衰减的优点,指数相关模型也是具有强相关预测变量的一般线性模型的近似,因为这些预测变量之间的相关系数的绝对值都接近于1。在均匀相关模型中,强相关预测变量的平均群效应是归一化群效应类中最优的群效应。此外,其他的可估计群效应全都在平均群效应的周围。基于从均匀模型中得出的有趣结论,我们致力于发现由指数型相关的预测变量引起的多重共线性对参数估计的影响,并寻找这些预测变量的最优群效应和可估计群效应,以及这两个群效应之间的联系。理论上,我们推导出了指数相关模型中个体参数的最小二乘估计量的方差,并给出了详细证明。我们还证明了指数型相关的预测变量的个体最小二乘估计量具有异常大的方差,尤其是在预测变量极度相关的情况下,然而对应的可估计群效应的方差却很小。更重要的是,我们找到了指数相关模型中的最优群效应并且证明了其最优性。对于一个指数相关模型,我们从理论上和数值上都可以得出结论:预测变量之间的相关性越强,其个体的最小二乘无偏估计量的方差越大,而相应的无偏最优群效应和可估计群效应的方差越小。我们的数值例子还表明:所有可估计群效应,如平均群效应,的权重向量,都在最优权重的一个邻域内。这意味着其他的可估计群效应都是在最优群效应的一个小邻域内。这一邻域随着相关系数的增大而变小。令人惊讶的是,这些最优权重有一些有趣的性质:它们都是对称的,并且是接近于平均权重的,尤其是当预测变量之间的相关系数很大时。从数值结果来看,所有的可估计群效应都是渐近最优的;当预测变量之间具有极强的相关性时,可估计群效应具有几乎相同的值和很小的方差。特别地,平均群效应总是可估计的和渐近最优的。为了补充和方便比较,我们还可视化了均匀相关模型中最优群效应和可估计群效应之间的关系。尽管研究者们已经有过一些讨论了,但是没有一个生动形象的方式来表示和解释这种关系。通过可视化均匀相关模型和指数相关模型中最优群效应的邻域,我们更容易发现邻域与预测变量之间的相关性的关系本质。不出意外地,可估计群效应在最优群效应的一个小邻域内,这个领域随着预测变量之间的相关性增强而越来越小。最优群效应和可估计群效应具有重要的应用价值和意义。第一,它们对于参数的估计和推断意义重大。例如,如果最优群效应是显著的,我们可以拒绝组内所有参数都为零的原假设,得出组内至少有一个非零参数的结论。第二,最优群效应是精确的,可用于根据已建立的模型做可靠的预测。第三,基于其它可估计群效应与最优群效应的联系,我们可以找到这些可估计群效应。最后,一个可估计群效应可以用于降低维数。具体来说,如果一个由p个强相关的预测变量组成的群效应是可估计的,那么它将参数空间降成了这一空间中的一条线。我们的数值结果还表明了多重共线性的局部性质,原因在于它对不相关的个体参数的最小二乘无偏估计量的方差影响甚小。这一局部性质可用来估计强相关预测变量的个体参数。主要思想是:将这些变量的精确的线性组合作为变量的约束条件。由于最优群效应的精确性,我们可以寻找接近于真实值的参数估计量,计算其到原点的距离,将距原点最近的参数估计量作为真实参数值的所有可行估计量的下界,然后找到所有的可行估计量。从而,基于这些可行的个体估计量所组成的区域和精确的最优群效应的约束,我们可能可以精确地估计线性模型中的强相关预测变量的个体参数。数值结果表明:指数相关模型所使用的方法和得出的结论是适用于一般的线性模型的,因为当预测变量之间的相关系数趋近于1时,前者其实是后者的一种近似。估计强相关预测变量的群效应是一种创新,它充分地利用多重共线性,而不是避免或者弥补。在不失预测和推断的准确性的前提下,这一方法更容易解释、实行和做推断。因此,估计强相关预测变量的群效应可能可以作为处理线性模型中多重共线性的补充方法。
其他文献
【正】 文化范畴关于文化的定义,有广义文化和狭义文化之分。在60年代中期以前,苏联比较流行的文化定义是广义文化,即认为文化是社会的物质财富和精神财富的总和。如1955年出
当前,受中小煤矿产出规模小、资本和技术构成较低以及宏观经济环境变化等因素的影响。中小煤矿的财务管理存在很多问题。剖析中小煤矿财务管理存在的问题并研究对策,以促进中小
DNA甲基化作为重要的表观遗传修饰,主要发生在CpG岛,通过DNA甲基化转移酶催化完成。DNA甲基化调控基因表达,在细胞分化、遗传印记和肿瘤的治疗等方面起着重要作用。论文概述
介绍了潞安矿业集团公司王庄煤矿依靠科技进步和管理创新,实现矿井集约化生产的具体做法,以及由此带来的深刻启示.
采用TOPSIS法(优劣解距离法)设计一种新型的符合实验室物流专业应用的模型,通过采取熵权对属性权重判定等方法进行了理论模型的建立。针对实验室拓展需要,进行了某汽车公司的实
煤矿安全生产是天字号的大事,2000年发生的几起重特大煤矿安全事故,对我们的教训极为深刻。跨入新世纪的第一年,国家煤矿安全监察局局长张宝明郑重强调:煤矿安全生产这根弦始
物资供应部门作为企业的先头部队,负责物资的采购、供应及管理工作,为企业能够持续正常的生产经营奠定了基础.但近年来企业内部在转换经营机制过程中出现了层层放权,层层要权
无刷直流电机BLDCM(Brushless DC motor)由于自身运行速度高,可靠性较好,依靠电子换相不会产生火花等优点,目前广泛应用于民用、军事等不同领域。而无刷直流电机无位置传感器控制技术降低了系统硬件成本,简化了设计,并使无位置传感器无刷电机可以应用于高温高湿的环境中,提高了电机运行的可靠性,大大拓展了无刷直流电机的应用范围。无刷直流电机无位置传感器控制技术可分为两个部分:电机的无位置传
各有关单位:《煤炭企业管理》杂志系我会会刊。为加强《煤炭企业管理》杂志社的管理,理顺隶属关系,经研究决定,从2005年起,《煤炭企业管理》杂志社由中国煤炭工业协会管理,为中国煤
【正】 我国70年代计划生育工作成绩是显著的,其最令人折服的证据是将总和生育率由6.33下降至2.65。使人口由高生育率向低生育率演变这是控制人口政策与行之有效的行政制约机