论文部分内容阅读
【摘 要】 在工程研究工作,一般都需要测量相关的变量或者暴露,其中一些变量可以做到准确测量,然而一些变量则很难保证,从而引起测量误差。误差的出现会导致研究的结果数据受到影响,导致最终结论的出现虚假信息。暴露测量误差的出现,会导致研究结果出现偏倚。如何对无法准确测量变量产生的误差引起的偏倚进行了解和控制是研究工作中的一个关键问题。本文通过分析测量误差、准确测量变量、测量误差变量之间的联系、准确测量变量数量与联系效应的函数关系,结合软件对测量误差变量与准确测量变量混合对研究真实性的影响进行探讨。
【关键词】 测量误差变量;准确测量变量;研究真实性;影响分析
工程研究中,变量以及暴露的测量是一个常见的步骤,一些变量和暴露的测量是可以保证真实准确的。同时还有一些变量以及暴露的真实测量难度以及准确测量难度很难保证,比如环境污染暴露等。这些无法真实准确测量的变量会导致结果出现一定的误差。在工程的研究过程中,暴露测量误差是导致偏倚的一个重要因素,这些误差会导致暴露以及结果之间的联系出现变化,引起暴露和结果之间的虚假联系。在目前,已经有很多研究对暴露测量误差与研究真实性之间的影响进行了分析和讨论,然而很少有研究在准确测量变量以及误差变量同时存在的情况下对暴露测量研究与研究真实性的影响进行分析。本文结合对测量误差、准确测量变量、测量误差变量之间的联系、准确测量变量数量与联系效应的函数关系的探讨,并利用R软件进行分析,结合多个例子进行详细说明,总结了测量误差变量与准确测量变量混合对研究真实性的影响。详细内容如下所示:
1 连续变量
将Y设为连续反应变量,将X以及Z设为连续自变量,其中Y和Z是可以真实测量的变量,而X则无法真实测量。X的观测值设为,X的测量误差设为t。其中t=SD(|X)/SD(X)。t=0.1时,则表示X的测量过程中存在10%的误差。设对X而言,以及(Z,Y)是条件独立的,也就是E(|X)=X,Var(|X)=t2Var(X)。以及Z的关系如下:
E(Y|X,Z)=β0+β1X+β2Z
E(Y|,Z)=0+1+2Z
X的测量误差与回归系数之间的关系如下:
AF(attenuation factor)=1/β1=1/[1+t2/(1-p2)](1)
其中p为X和Z的相关系数,p=Cor(X,Z)。
由(1)可知,在分析X对Y的影响的过程中,如果研究分析中存在一个能够真实测量的变量Z,假设X和Z之间存在相关性,则测量过程中出现的误差引起偏倚与t有关,还与p有关。
举个例子,如图1所示,图中为相关系数p变化时,AF与t之间的关系图。从图中可以看出,p不管为何值,无差异性的测量误差下,1均比β1小,测量误差的增加也会导致偏倚程度更加严重。测量误差一定的情况下,X以及Z的联系性会更为密切,这也会导致测量误差引起的偏倚更为严重。当测量误差t=10%,p=0,AF=0.990的情况下,相对偏倚仅仅为0.1%,可以忽略。当p=0.9时,AF=0.950,相对偏倚为5.0%;当t=50%,p=0,AF=0.800,相对偏倚则为20%;当p=0.9,AF=0.432,相对偏倚为56.8%。
上述分析中,暴露测量误差对联系效应的影响仅仅与一个真实测量变量相关。然而在实际生活中,变量一般多个,这会导致测量误差对联系效应的影响更为复杂。将Y以及X设做标量,d维的矢量为Z,其中Y、Z1、…、Zd能够准确测量,而X无法准确测量。E(X)=E(Z1)=0,Var(X)=Var(Z1)=1,对于X而言,和(Z,Y)是条件独立,也就是E(|X)=X,Var(|X)=t2。
X的测量误差和线性回归系数之间的关系如下:
AF=1/β1=[1/(1+t2)]×{1-t2/(1+t2)c’[R-cc’/(1+t2)]-1}(2)
其中R=E(ZZ’),c=E(ZX)。
因準确变量数量太多的情况下,关系分析较为复杂,因此本文针对自变量等相关的情况进行研究,也就是p=Cor(X,Zi)=Cor(Zi,Zj),因此可以将(2)进行变换:
AF=1/β1=[1/(1+t2)]×{1-t2p2/(1+t2)[d/(1-p)-(d2cp,t/(1-p)(1-p+dcp,t))]}(3)
其中cp,t=p-{p2/(1+t2)}。
由(3)可知,在分析X与Y之间联系的时候,假设X和Z之间存在相关性,则偏倚不仅仅和t有关,还与X和Zi的相关系数以及d的数量有关。
举个例子,图2是不同相关系数以及准确测量变量下,AF与t的关系图。可见,p>0时,无差异性测量误差下,1都小于β1,且准确测量变量的增加也会导致偏倚不断增加。当t=0.3,p=0.5时,d的数量为1、2、3、5、20,AF则对应为0.893、0.881、0.874、0.866以及0.853。而p<0时,随着准确测量变量数量的增加,偏倚并不是均增加,准确测量变量的数量不限,无差异性测量误差下,1也不会均比β1小。
2 分类变量
设Y以及Z为连续变量,且均为准确测量变量,设X为二分变量,其为无法准确测量变量,存在无差异性错分,设X的观测值为,则:
Pr(=1|X,Z,Y)=a+bX
其中,a=1-SP(SP表示暴露测量的特异度),b=SN+SP-1(SN表示暴露测量的灵敏度)
反应变量Y和自变量X、Z之间的联系以及和、Z之间的关系如下:
E(Y|X,Z)=β0+β1X+β2Z
E(Y|,Z)=0+1+2Z
X的测量误差与回归系数的关系如下:
(4)
其中r=Pr(X=1),=Pr(=1)=a+br,p=Cor(X,Z)。
由(4)可见,在分析X与Y的关系的过程中,在X与Z存在相关性的条件下,偏倚不仅和暴露测量的灵敏度以及特异度有关,同时还与X和Z的相关系数以及X的暴露比例存在联系。
举个例子,图4表示X的暴露比例r为0.1、0.5时,特异度SP为0.6、0.9,p为0、0.5、0.7、0.8、0.9时,AF与SN之间的关系图。由图可见,AF在相关系数的增加下会逐渐减少,且X与Z的相关性对偏倚存在影响。比如当r=0.1,SP=SN=0.9,p=0、0.5、0.7、0.8、0.9,AF则为1.707、1.419、1.077、0.819以及0.474。
3 结束语
此次研究中,我们对测量误差变量以及准确测量变量混合对研究真实性的影响进行了分析,针对只有一个无法准确测量变量的情况进行了讨论,然而实际情况中会更加复杂,准确测量变量对测量误差引起的偏倚情况一般很难估测和预见。因此在涉及准确测量变量以及无法准确测量变量的研究中,需要采用线性回归的方法对自变量与应变量之间的相关性进行分析和探讨,从而对测量误差引起的偏倚进行了解和控制。
参考文献:
[1]黄玉婷.论建筑工程测量中存在的问题及对策[J].科学之友,2011,6(25):121-122.
[2]陈斌.浅谈新技术在建筑工程测量中的应用[J].科学之友,2010,7(25):200-201.
【关键词】 测量误差变量;准确测量变量;研究真实性;影响分析
工程研究中,变量以及暴露的测量是一个常见的步骤,一些变量和暴露的测量是可以保证真实准确的。同时还有一些变量以及暴露的真实测量难度以及准确测量难度很难保证,比如环境污染暴露等。这些无法真实准确测量的变量会导致结果出现一定的误差。在工程的研究过程中,暴露测量误差是导致偏倚的一个重要因素,这些误差会导致暴露以及结果之间的联系出现变化,引起暴露和结果之间的虚假联系。在目前,已经有很多研究对暴露测量误差与研究真实性之间的影响进行了分析和讨论,然而很少有研究在准确测量变量以及误差变量同时存在的情况下对暴露测量研究与研究真实性的影响进行分析。本文结合对测量误差、准确测量变量、测量误差变量之间的联系、准确测量变量数量与联系效应的函数关系的探讨,并利用R软件进行分析,结合多个例子进行详细说明,总结了测量误差变量与准确测量变量混合对研究真实性的影响。详细内容如下所示:
1 连续变量
将Y设为连续反应变量,将X以及Z设为连续自变量,其中Y和Z是可以真实测量的变量,而X则无法真实测量。X的观测值设为,X的测量误差设为t。其中t=SD(|X)/SD(X)。t=0.1时,则表示X的测量过程中存在10%的误差。设对X而言,以及(Z,Y)是条件独立的,也就是E(|X)=X,Var(|X)=t2Var(X)。以及Z的关系如下:
E(Y|X,Z)=β0+β1X+β2Z
E(Y|,Z)=0+1+2Z
X的测量误差与回归系数之间的关系如下:
AF(attenuation factor)=1/β1=1/[1+t2/(1-p2)](1)
其中p为X和Z的相关系数,p=Cor(X,Z)。
由(1)可知,在分析X对Y的影响的过程中,如果研究分析中存在一个能够真实测量的变量Z,假设X和Z之间存在相关性,则测量过程中出现的误差引起偏倚与t有关,还与p有关。
举个例子,如图1所示,图中为相关系数p变化时,AF与t之间的关系图。从图中可以看出,p不管为何值,无差异性的测量误差下,1均比β1小,测量误差的增加也会导致偏倚程度更加严重。测量误差一定的情况下,X以及Z的联系性会更为密切,这也会导致测量误差引起的偏倚更为严重。当测量误差t=10%,p=0,AF=0.990的情况下,相对偏倚仅仅为0.1%,可以忽略。当p=0.9时,AF=0.950,相对偏倚为5.0%;当t=50%,p=0,AF=0.800,相对偏倚则为20%;当p=0.9,AF=0.432,相对偏倚为56.8%。
上述分析中,暴露测量误差对联系效应的影响仅仅与一个真实测量变量相关。然而在实际生活中,变量一般多个,这会导致测量误差对联系效应的影响更为复杂。将Y以及X设做标量,d维的矢量为Z,其中Y、Z1、…、Zd能够准确测量,而X无法准确测量。E(X)=E(Z1)=0,Var(X)=Var(Z1)=1,对于X而言,和(Z,Y)是条件独立,也就是E(|X)=X,Var(|X)=t2。
X的测量误差和线性回归系数之间的关系如下:
AF=1/β1=[1/(1+t2)]×{1-t2/(1+t2)c’[R-cc’/(1+t2)]-1}(2)
其中R=E(ZZ’),c=E(ZX)。
因準确变量数量太多的情况下,关系分析较为复杂,因此本文针对自变量等相关的情况进行研究,也就是p=Cor(X,Zi)=Cor(Zi,Zj),因此可以将(2)进行变换:
AF=1/β1=[1/(1+t2)]×{1-t2p2/(1+t2)[d/(1-p)-(d2cp,t/(1-p)(1-p+dcp,t))]}(3)
其中cp,t=p-{p2/(1+t2)}。
由(3)可知,在分析X与Y之间联系的时候,假设X和Z之间存在相关性,则偏倚不仅仅和t有关,还与X和Zi的相关系数以及d的数量有关。
举个例子,图2是不同相关系数以及准确测量变量下,AF与t的关系图。可见,p>0时,无差异性测量误差下,1都小于β1,且准确测量变量的增加也会导致偏倚不断增加。当t=0.3,p=0.5时,d的数量为1、2、3、5、20,AF则对应为0.893、0.881、0.874、0.866以及0.853。而p<0时,随着准确测量变量数量的增加,偏倚并不是均增加,准确测量变量的数量不限,无差异性测量误差下,1也不会均比β1小。
2 分类变量
设Y以及Z为连续变量,且均为准确测量变量,设X为二分变量,其为无法准确测量变量,存在无差异性错分,设X的观测值为,则:
Pr(=1|X,Z,Y)=a+bX
其中,a=1-SP(SP表示暴露测量的特异度),b=SN+SP-1(SN表示暴露测量的灵敏度)
反应变量Y和自变量X、Z之间的联系以及和、Z之间的关系如下:
E(Y|X,Z)=β0+β1X+β2Z
E(Y|,Z)=0+1+2Z
X的测量误差与回归系数的关系如下:
(4)
其中r=Pr(X=1),=Pr(=1)=a+br,p=Cor(X,Z)。
由(4)可见,在分析X与Y的关系的过程中,在X与Z存在相关性的条件下,偏倚不仅和暴露测量的灵敏度以及特异度有关,同时还与X和Z的相关系数以及X的暴露比例存在联系。
举个例子,图4表示X的暴露比例r为0.1、0.5时,特异度SP为0.6、0.9,p为0、0.5、0.7、0.8、0.9时,AF与SN之间的关系图。由图可见,AF在相关系数的增加下会逐渐减少,且X与Z的相关性对偏倚存在影响。比如当r=0.1,SP=SN=0.9,p=0、0.5、0.7、0.8、0.9,AF则为1.707、1.419、1.077、0.819以及0.474。
3 结束语
此次研究中,我们对测量误差变量以及准确测量变量混合对研究真实性的影响进行了分析,针对只有一个无法准确测量变量的情况进行了讨论,然而实际情况中会更加复杂,准确测量变量对测量误差引起的偏倚情况一般很难估测和预见。因此在涉及准确测量变量以及无法准确测量变量的研究中,需要采用线性回归的方法对自变量与应变量之间的相关性进行分析和探讨,从而对测量误差引起的偏倚进行了解和控制。
参考文献:
[1]黄玉婷.论建筑工程测量中存在的问题及对策[J].科学之友,2011,6(25):121-122.
[2]陈斌.浅谈新技术在建筑工程测量中的应用[J].科学之友,2010,7(25):200-201.