论文部分内容阅读
摘 要:基于2012年中国综合社会调查数据(CGSS2012),运用赫克曼选择模型和工具变量模型相结合的多模型识别技术,修正了由样本选择、变量遗漏等原因带来的内生性偏误问题,检验了体育行为和健康回报之间的因果机制。同时也估计了体育的健康回报净效应。研究发现:(1)体育行为与健康回报之间并非仅仅有单向的因果关联(即体育促进健康),同时也存在双向作用机制。(2)体育资源分布对人们体育参与的影响并非均质的,对不同群体的作用程度也不相同。(3)体育资源布局不平衡将引发体育参与的不平等以及健康回报不平等问题。
关 键 词:体育计量;多模型识别;体育行为;健康回报;因果效应
中图分类号:G80-32 文献标志码:A 文章编号:1006-7116(2017)02-0073-07
Exploring the effect of health return of physical exercising by
using multi-model identification technology
——An analysis based on the data of Chinese General Social Survey 2012
HUANG An-long
(School of Physical Education,Chuzhou University,Chuzhou 239000,China)
Abstract: Based on the data of Chinese General Social Survey 2012 (CGSS2012), by applying multi-model identification technology in which the Heckman selection model was combined with the instrumental variable model, the author corrected the problem of endogenous bias brought by such causes as sample selection and variable omission, and verified the causal mechanism between sports behavior and health return. The author also estimated the net effect of health return of sport. The author revealed the following findings: 1) between sports behavior and health return there is not only unidirectional causal correlation (i.e. sport promotes health), but also a bidirectional functioning mechanism; 2) the effect of sports resource distribution on people’s sports participation is not homogeneous, its degrees of functioning on different groups are different; 3) the unbalance of sports resource layout will trigger problems such as sports participation inequality and health return inequality etc.
Key words: sports metrology;multi-model identification;sports behavior;health return;causal effect
在体育研究中,体育有益于健康似乎已经成为一种常识。然而,体育锻炼究竟在何种程度上促进了健康(即健康回报)却并没有多少人去深入探讨[1-3]。原因大致有3方面:一是就学术研究而言,一些研究者将体育锻炼对健康的促进作用视为一个确定的命题,认为无需花过多的时间和精力对此进行深入研究。二是想要证明体育锻炼究竟在何种程度上促进健康,不仅需要体育锻炼方面的指标,也需要结合医学指标予以测量和分析。而体育与医学两个领域之间的合作甚少,各自对健康问题的研究难有交集。体育研究者一般是通过对体质指标测量来说明体育对健康的促进作用,而医学研究者则是从疾病预防和康复的视角看待体育锻炼的作用。这两个领域不同的研究目的和研究面向决定了它们在研究上的分野。三是由于影响健康的因素过于复杂,在以调查为基础的数据分析中,体育之外因素的影响以及主要变量的内生性问题难以得到有效控制。那些基于调查数据来探讨体育与健康关系的文献,虽然得出了大致近似的结论,即体育有促进健康作用,然而却难以准确地估计体育健康回报的净效应值[4-5]。到目前为止,学者们并未对体育锻炼的健康回报净效应进行过深入讨论[2-4]。这也使得体育锻炼与健康促进的因果链条上因缺乏證据而略显“单薄”。
本研究在梳理前人研究成果和相关理论的基础上,对中国成年人体育锻炼的健康回报机制进行探讨,并基于2012年中国综合社会调查数据(CGSS2012),运用赫克曼选择模型和工具变量模型相结合的办法,解决样本的选择性偏误问题以及关键变量遗漏等带来的内生性偏误问题,从而有效地估计了体育锻炼的健康回报净效应值,并发现了体育行为与健康之间的负向选择关系。
1 体育健康回报研究中因果估计的问题 体育行为在多大程度上影响人的健康?要回答这一问题,需要排除其它因素的干扰,估计体育行为对健康的净效应。然而,由于社会科学研究中有许多无法控制的因素,给因果分析带来很大障碍。
1.1 样本选择性问题
选择性偏误从本质上说是一个“非随机化”的问题。就本研究而言,希望探讨体育锻炼水平对健康促进的因果效应,但这只有在被访对象参与体育的前提下才能观察到,而那些不是被访对象则被排除在样本之外。这是典型的样本选择问题,若对这一样本不加处理地进行分析,会导致系数估计偏误的发生。
另外,非随机性还可能是研究对象的一种“自选择”行为。以本研究为例,一个报告了参与体育锻炼的被访对象和一个报告未参与体育锻炼的被访对象,其行为本身可能受到某种潜在因素的影响,从而引起数据不平衡。如果不加处理地应用常规统计模型进行分析,则同样也会产生系数估计偏误。
1.2 遗漏变量问题
假如模型中遗漏了一个十分重要的变量,那么会导致模型估计的严重偏误。具体到本研究,假如运动能力是一个重要的变量,它直接影响到个体体育参与水平,也代表了个体健康体能的高低。如果研究者忽略这一变量,采取常规的统计模型进行分析,发生系数估计偏误将不可避免。对于研究者意识到的可能的遗漏变量问题,可以采取代理变量的办法来处理(例如本研究用“行动受限”来代替“运动能力”这一变量予以弥补)。然而,实际分析中研究者难以穷尽所有可能,变量被忽略就在所难免。因此,在统计分析中处理变量遗漏带来的内生性问题十分重要。
1.3 双向因果问题
双向因果是多元统计分析中易发生的问题。例如“体育锻炼水平”和“个体健康自评”是受访者在统一时点对问题的回答(即同一时点收集的数据),因此,哪个变量是“因”,哪个变量是“果”,并不清晰。在实际分析中,研究者就需要考虑“双向因果”问题。该问题可用文字表述为:体育参与促进了个体健康。同时,个体健康水平的提升也可能反过来会影响体育锻炼的参与水平。如果研究者忽略实际发生的“双向因果”关系,将可能低估或高估因果效应值,严重时甚至可能得出无因果关系或反向因果关系的结论。
2 估计偏误的解决方案与模型设置
工具变量模型和赫克曼选择方程是用于解决上述估计偏误的常用模型。在实际运用中,两个模型各有优劣,本研究将二者结合用以解决体育健康回报研究中的估计偏误问题。
2.1 赫克曼模型(Heckman Model)
赫克曼模型是对各种样本选择或自选择偏误进行修正的重要模型,在经济学、社会学、政治学等领域得到广泛的应用[12-13]。赫克曼模型分为两步实现:第1步,利用所有样本(参与体育和未参与体育的样本)对个体接受干预的概率进行预测,计算逆米尔斯比率值。第2步对参与干预样本(参与体育的样本)进行回归分析,同时将逆米尔斯比率值纳入分析,以获得模型参数的一致性估计。限于篇幅,有关赫克曼模型修正选择偏误的数学证明详见相关文献[12-13],此处不强述。
2.2 工具变量模型(Instrumental Variable)
赫克曼模型对于解决样本选择偏误十分有效,但对于遗漏变量和双向因果所带来的偏误问题却无能为力。为进一步修正这类问题引起的估计偏误,在赫克曼模型的基础上引入工具变量模型。根据工具变量模型要求,所引入的工具变量必须满足一定的条件,即要求工具变量与健康状况(因变量)无任何直接关系,同时它又能直接影响个体的体育参与水平(自变量)。
2.3 模型设置
为了检验多模型识别效果,需要将它们同经典最小二乘回归方法进行比较分析。为此,本研究设置了3种模型:最小二乘法模型(OLS)、赫克曼选择模型(Heckit)、基于赫克曼模型的工具变量模型(IV-Heckit)。
根据研究需要,最小二乘法模型可以写成如下表达式:
(1)
其中,Hi代表个体的健康水平,Si代表体育参与水平,Xi代表系列控制变量,为误差项。β1代表体育健康促进效应值。获得β1的无偏误估计前提是Cov(S,)=0,显然这一假设很难满足,需要在上述模型基础上运用赫克曼模型修正选择性偏误。赫克曼模型可以写成两个公式,分别为选择方程和主方程:
(2)
(3)
其中,方程(3)是选择方程表达式,方程(2)是主方程的表达式。Pi为逆Mills比率,Ri是排除限定變量(excluded exogenous variable)。和均为误差项。最后,将上述模型结合起来,形成IV-Hickit模型,它由3个方程(4)、(5)、(6)组成:
(4)
(5)
(6)
其中vi代表外生的工具变量,即本研究中的“住宅1 km范围里是否有体育锻炼场所”。模型5纳入了外生工具变量后,内生解释变量S就不应纳入其中。
3 数据来源、变量操作化及样本情况
3.1 数据来源与变量操作化
本研究所使用的CGSS2012是由中国人民大学和香港科技大学等高校共同收集。抽样设计方案详见中国综合社会调查官网(http://cgss.ruc.edu.cn/)。数据发布以来,已为社会学、政治学等学科学者广泛采用。本研究主要关注体育锻炼与健康之间的因果效应,CGSS2012问卷中设置了体育锻炼、健康状况方面的问题为变量的操作化提供了方便。
因变量:健康。本研究用学界广泛采用的自评健康进行操作化。健康分为5个等级,分别为很不健康、比较不健康、一般、比较健康、很健康,赋值1~5,赋值越高说明越健康。
核心自变量:体育锻炼水平,用问卷问题“过去一年里,您一周平均进行几次至少20 min以上的体育锻炼?”回答分为5个等级,分别为每天锻炼、一周几次、一月几次、一年几次、我不锻炼,赋值从1~5,统计分析时进行反向赋值处理。 工具变量:本研究的工具变量为“住宅1 km范围内是否有足够的体育锻炼场所(馆)”。从理论上来讲,住宅周围的体育场馆设置更多是一种城市布局或安排,可以将它看成是一种随机性因素,它与个体健康状况之间并无直接关联。但住宅周围有合适的锻炼场所却能有效增加居民的体育参与水平。因此,这一变量基本上满足了工具变量的两个基本要求,但其实际应用效果仍然需要在后面的统计分析中予以检验。
排除限定变量:在Heckman模型中,为了求得估计系数的一致性,要求主方程是选择方程的严格子集。因此,需要设置排除限定变量,本研究设置了2个变量,即个体闲暇时间观看体育比赛的频率和运动能力是否受限,将前者处理为连续变量,将后者处理为二分变量。
协变量与控制变量:年龄,处理为连续变量;性别,处理为二分变量,其中女性为参照。户籍,处理为二分变量,农村为参照。民族,处理为二分变量,其中以汉族为参照。教育,处理为类别变量,问卷中有详细的教育史资料,可将其方便地操作化为4个类别:未受正规教育、义务教育、中等教育和高等教育,其中未受正规教育为参照类。收入,处理为连续变量,用个人年收入对数来衡量。14岁时的阶层认同,处理为连续变量,数量越大代表家庭的阶层地位越好。3年内是否体检,处理为二分变量,其中以未体检为参照类。
需要说明的是,既往的文献中都曾报告过教育、收入对健康的积极影响。因此本研究将其作为控制变量纳入分析[15]。此外,14岁时的家庭阶层认同能间接测定儿童少年时期的家庭社会经济地位,有研究表明它对个体儿童期的健康水平有着直接的影响[16]。因此,在本研究数据分析中也将这一变量一同纳入分析,以控制个体基础健康水平上的差异性。
3.2 样本基本情况
在对变量进行操作化处理的基础上,本研究舍去信息不全的样本,最终获得有效样本2 819个(见表1)。
从表1可见,个体自评健康平均得分为3.63,表明多数被访对象健康自评良好。体育参与频率为2.31,表明整体体育参与水平仍然是中等偏下,这与实际情况大致相符。样本中男性占53%,女性占47%,城市户口占49%,农村户口占51%。这表明样本中,性别、户籍类别在数量上基本均衡。
4 结果与分析
4.1 OLS模型估计
为了直观比较Heckit模型以及IV-Heckit模型对偏误系数修正效果,本研究首先选择对经典OLS模型进行系数估计,估计结果见表2的模型1。
从模型1的系数估计可以看出,体育参与频率和个体健康水平之间有正向影响,并在0.01水平下显著。尽管这与预期一致,但不能由此得出因果判断,更不能将这里的系数看成是因果效应值。教育、收入对健康的正向影响在这里也得到了验证。14岁时的家庭社会地位对基础健康的影响也相应地影响到成人后的健康状况,在OLS模型中也得到了验证。模型1还显示,环境因素对健康有显著的负向影响,即住宅周围有环境污染的被访对象普遍报告较低的自评健康水平。此外,3年内是否有体检行为则对健康有负向影响,这一结果多少与预期有些差异。但结合中国居民的实际情况,这一负向影响也能得到合理的诠释。随着社会进步和人们社会生活水平的提高,体检也成了人们健康维护的重要途径。尽管如此,个人主动体检的情况还属于少数人的行为。因此,除了入职和单位组织的常规体检外,个体主动的体检行为多是个人觉得身体状况出现异常的情况下才会发生。鉴于这种情况在居民中比较常见,因此从总体上而言,体检行为也意味着身体健康状况可能已经出现了问题,从而体检行为和身体健康状况呈现出的负向关系也就不足为怪了简言之,模型1的分析表明多数控制变量与因变量有关联,在分析中将这些变量纳入控制是有必要的。
4.2 Heckit模型估计
模型2是考虑了样本选择问题的赫克曼模型估计结果。主要自变量体育参与水平和个体的健康自评之间仍然是正向影响,但其效应系数值在经过样本选择性偏差处理以后,变得更小了。这表明分析样本有反向选择倾向。该判断随后从逆米尔斯系数估计中得到相应的佐证。模型2显示,逆米尔斯比率估计值为-1.69,且在0.01显著性水平下具有统计意义,这表明体育行为与健康之间有某种负向选择关系。
如何解释体育锻炼与健康的负向选择关系?本研究认为有两个原因造成这种负向选择倾向,一是与中国居民体育锻炼行为有关,另一个是人们对体育锻炼的认识偏差所致。彭大松[17-18]基于全国调查数据发现了体育锻炼和年龄之间的“U”型曲线。这种“U”型曲線在一定程度上也真实地反映了中国居民的锻炼行为。年轻人有较高的体育参与水平,可能更多地得益于学校体育将体育作为一门必修课程。老年人体育参与水平高,一方面是因为从工作岗位退休后,有更多的时间从事体育锻炼。另一方面,老年阶段会出现各种健康问题,使得老年人的健康危机意识增强,从而成为参与体育锻炼的重要动因。本研究中的被访对象平均年龄为46.7岁,被访对象中的在校学生较少。体育锻炼与年龄的关系更多地表现为U型曲线的右侧一半,即随着年龄的增长,身体状况在下降,同时体育参与水平却在上升。此外,撇开年龄因素不说,人们对体育锻炼行为的认识也是有偏差的,即认为体育锻炼仅仅是一种强健身体的手段,而不是一种生活中的必要行为。因此,体弱者为了强健身体,可能有更大的意愿参与体育,从而在实际中表现出频繁参加体育锻炼。相反,对体质好的人来说,体育锻炼的预期价值较低,体育锻炼的动机和实际参与也因此相对较低。
为了检验上述两种解释,将赫克曼模型的选择方程中加入反映身体质量的变量BMI,然后进行统计分析。为了直观地反映这种选择关系,用图形的方式呈现出来,纵轴是根据新模型计算出的体育参与水平的预测值,用stata软件进行修匀处理作图(见图1、图2)。
从图1可以看出,中国人体育锻炼行为具有年龄选择性,即随着年龄的增长,体育参与越频繁。图2的曲线表明体育锻炼与体质状况的负向选择性,体质好的个体平均锻炼的频次反而下降。因此,体育锻炼与健康的负向影响在这一机制中得到了合理的解释。 (3)体育资源布局不均衡将引发体育参与的不平等和健康不平等问题。在实际的城市建设中,体育配套资源常常作为住宅品质的附加价值的一部分。城市规划者优先将体育配套资源(如公园、绿地等)布局在富裕的住宅区而不是相反,这一境况将引发体育参与不平等问题。进一步而言,在本研究已经正式体育锻炼有正向促进身体健康的前提下,体育参与的不平等将不可避免地引发健康不平等问题。这一发现需要引起学界的重视,也需要进一步的深入研究。
当然,本研究除了新方法的运用和新发现之外,也存在一些不足之处。例如对健康的测度,采用的是自评健康指标(尽管这一指标为学界广泛采用),但相对体育对健康的作用而言,仍然不够全面。期待今后的研究中,对健康进行更加准确的测度,才能全面评价体育对健康的贡献。此外,也呼吁体育领域中大型的全國抽样调查数据,应包括更多的社会背景资料(特别是生活史方面的信息)和多方面健康测度指标,也应该像其它学科那样将其公布于公共数据平台,为更多学者所用,以此来推进相关领域的研究。
参考文献:
[1] PENEDO,FRANK J,DAHN,et al. Exercise and well-being: a review of mental and physical health benefits associated with physical activity[J]. Current Opinion in Psychiatry,2005,3(18):189-193.
[2] RUSSELL R P,MICHAEL P,STEVEN N B,et al. Physical activity and public health a recommendation from the centers for disease control and prevention and the American college of sports medicine[J]. The Journal of American Medical Association,1995,273(5):402-407.
[3] GABRIELLE P,RODRIGO S R,CASSIANO R,et al. Quality of life and physical activity among adults:population-based study in Brazilian adults[J]. Quality of Life Research,2012,11(9):1537-1543.
[4] MICHAEL J,BLAIR S N. Physical activity,cardiorespiratory fitness,and adiposity:contributions to disease risk[J]. Current Opinion in Clinical Nutrition
关 键 词:体育计量;多模型识别;体育行为;健康回报;因果效应
中图分类号:G80-32 文献标志码:A 文章编号:1006-7116(2017)02-0073-07
Exploring the effect of health return of physical exercising by
using multi-model identification technology
——An analysis based on the data of Chinese General Social Survey 2012
HUANG An-long
(School of Physical Education,Chuzhou University,Chuzhou 239000,China)
Abstract: Based on the data of Chinese General Social Survey 2012 (CGSS2012), by applying multi-model identification technology in which the Heckman selection model was combined with the instrumental variable model, the author corrected the problem of endogenous bias brought by such causes as sample selection and variable omission, and verified the causal mechanism between sports behavior and health return. The author also estimated the net effect of health return of sport. The author revealed the following findings: 1) between sports behavior and health return there is not only unidirectional causal correlation (i.e. sport promotes health), but also a bidirectional functioning mechanism; 2) the effect of sports resource distribution on people’s sports participation is not homogeneous, its degrees of functioning on different groups are different; 3) the unbalance of sports resource layout will trigger problems such as sports participation inequality and health return inequality etc.
Key words: sports metrology;multi-model identification;sports behavior;health return;causal effect
在体育研究中,体育有益于健康似乎已经成为一种常识。然而,体育锻炼究竟在何种程度上促进了健康(即健康回报)却并没有多少人去深入探讨[1-3]。原因大致有3方面:一是就学术研究而言,一些研究者将体育锻炼对健康的促进作用视为一个确定的命题,认为无需花过多的时间和精力对此进行深入研究。二是想要证明体育锻炼究竟在何种程度上促进健康,不仅需要体育锻炼方面的指标,也需要结合医学指标予以测量和分析。而体育与医学两个领域之间的合作甚少,各自对健康问题的研究难有交集。体育研究者一般是通过对体质指标测量来说明体育对健康的促进作用,而医学研究者则是从疾病预防和康复的视角看待体育锻炼的作用。这两个领域不同的研究目的和研究面向决定了它们在研究上的分野。三是由于影响健康的因素过于复杂,在以调查为基础的数据分析中,体育之外因素的影响以及主要变量的内生性问题难以得到有效控制。那些基于调查数据来探讨体育与健康关系的文献,虽然得出了大致近似的结论,即体育有促进健康作用,然而却难以准确地估计体育健康回报的净效应值[4-5]。到目前为止,学者们并未对体育锻炼的健康回报净效应进行过深入讨论[2-4]。这也使得体育锻炼与健康促进的因果链条上因缺乏證据而略显“单薄”。
本研究在梳理前人研究成果和相关理论的基础上,对中国成年人体育锻炼的健康回报机制进行探讨,并基于2012年中国综合社会调查数据(CGSS2012),运用赫克曼选择模型和工具变量模型相结合的办法,解决样本的选择性偏误问题以及关键变量遗漏等带来的内生性偏误问题,从而有效地估计了体育锻炼的健康回报净效应值,并发现了体育行为与健康之间的负向选择关系。
1 体育健康回报研究中因果估计的问题 体育行为在多大程度上影响人的健康?要回答这一问题,需要排除其它因素的干扰,估计体育行为对健康的净效应。然而,由于社会科学研究中有许多无法控制的因素,给因果分析带来很大障碍。
1.1 样本选择性问题
选择性偏误从本质上说是一个“非随机化”的问题。就本研究而言,希望探讨体育锻炼水平对健康促进的因果效应,但这只有在被访对象参与体育的前提下才能观察到,而那些不是被访对象则被排除在样本之外。这是典型的样本选择问题,若对这一样本不加处理地进行分析,会导致系数估计偏误的发生。
另外,非随机性还可能是研究对象的一种“自选择”行为。以本研究为例,一个报告了参与体育锻炼的被访对象和一个报告未参与体育锻炼的被访对象,其行为本身可能受到某种潜在因素的影响,从而引起数据不平衡。如果不加处理地应用常规统计模型进行分析,则同样也会产生系数估计偏误。
1.2 遗漏变量问题
假如模型中遗漏了一个十分重要的变量,那么会导致模型估计的严重偏误。具体到本研究,假如运动能力是一个重要的变量,它直接影响到个体体育参与水平,也代表了个体健康体能的高低。如果研究者忽略这一变量,采取常规的统计模型进行分析,发生系数估计偏误将不可避免。对于研究者意识到的可能的遗漏变量问题,可以采取代理变量的办法来处理(例如本研究用“行动受限”来代替“运动能力”这一变量予以弥补)。然而,实际分析中研究者难以穷尽所有可能,变量被忽略就在所难免。因此,在统计分析中处理变量遗漏带来的内生性问题十分重要。
1.3 双向因果问题
双向因果是多元统计分析中易发生的问题。例如“体育锻炼水平”和“个体健康自评”是受访者在统一时点对问题的回答(即同一时点收集的数据),因此,哪个变量是“因”,哪个变量是“果”,并不清晰。在实际分析中,研究者就需要考虑“双向因果”问题。该问题可用文字表述为:体育参与促进了个体健康。同时,个体健康水平的提升也可能反过来会影响体育锻炼的参与水平。如果研究者忽略实际发生的“双向因果”关系,将可能低估或高估因果效应值,严重时甚至可能得出无因果关系或反向因果关系的结论。
2 估计偏误的解决方案与模型设置
工具变量模型和赫克曼选择方程是用于解决上述估计偏误的常用模型。在实际运用中,两个模型各有优劣,本研究将二者结合用以解决体育健康回报研究中的估计偏误问题。
2.1 赫克曼模型(Heckman Model)
赫克曼模型是对各种样本选择或自选择偏误进行修正的重要模型,在经济学、社会学、政治学等领域得到广泛的应用[12-13]。赫克曼模型分为两步实现:第1步,利用所有样本(参与体育和未参与体育的样本)对个体接受干预的概率进行预测,计算逆米尔斯比率值。第2步对参与干预样本(参与体育的样本)进行回归分析,同时将逆米尔斯比率值纳入分析,以获得模型参数的一致性估计。限于篇幅,有关赫克曼模型修正选择偏误的数学证明详见相关文献[12-13],此处不强述。
2.2 工具变量模型(Instrumental Variable)
赫克曼模型对于解决样本选择偏误十分有效,但对于遗漏变量和双向因果所带来的偏误问题却无能为力。为进一步修正这类问题引起的估计偏误,在赫克曼模型的基础上引入工具变量模型。根据工具变量模型要求,所引入的工具变量必须满足一定的条件,即要求工具变量与健康状况(因变量)无任何直接关系,同时它又能直接影响个体的体育参与水平(自变量)。
2.3 模型设置
为了检验多模型识别效果,需要将它们同经典最小二乘回归方法进行比较分析。为此,本研究设置了3种模型:最小二乘法模型(OLS)、赫克曼选择模型(Heckit)、基于赫克曼模型的工具变量模型(IV-Heckit)。
根据研究需要,最小二乘法模型可以写成如下表达式:
(1)
其中,Hi代表个体的健康水平,Si代表体育参与水平,Xi代表系列控制变量,为误差项。β1代表体育健康促进效应值。获得β1的无偏误估计前提是Cov(S,)=0,显然这一假设很难满足,需要在上述模型基础上运用赫克曼模型修正选择性偏误。赫克曼模型可以写成两个公式,分别为选择方程和主方程:
(2)
(3)
其中,方程(3)是选择方程表达式,方程(2)是主方程的表达式。Pi为逆Mills比率,Ri是排除限定變量(excluded exogenous variable)。和均为误差项。最后,将上述模型结合起来,形成IV-Hickit模型,它由3个方程(4)、(5)、(6)组成:
(4)
(5)
(6)
其中vi代表外生的工具变量,即本研究中的“住宅1 km范围里是否有体育锻炼场所”。模型5纳入了外生工具变量后,内生解释变量S就不应纳入其中。
3 数据来源、变量操作化及样本情况
3.1 数据来源与变量操作化
本研究所使用的CGSS2012是由中国人民大学和香港科技大学等高校共同收集。抽样设计方案详见中国综合社会调查官网(http://cgss.ruc.edu.cn/)。数据发布以来,已为社会学、政治学等学科学者广泛采用。本研究主要关注体育锻炼与健康之间的因果效应,CGSS2012问卷中设置了体育锻炼、健康状况方面的问题为变量的操作化提供了方便。
因变量:健康。本研究用学界广泛采用的自评健康进行操作化。健康分为5个等级,分别为很不健康、比较不健康、一般、比较健康、很健康,赋值1~5,赋值越高说明越健康。
核心自变量:体育锻炼水平,用问卷问题“过去一年里,您一周平均进行几次至少20 min以上的体育锻炼?”回答分为5个等级,分别为每天锻炼、一周几次、一月几次、一年几次、我不锻炼,赋值从1~5,统计分析时进行反向赋值处理。 工具变量:本研究的工具变量为“住宅1 km范围内是否有足够的体育锻炼场所(馆)”。从理论上来讲,住宅周围的体育场馆设置更多是一种城市布局或安排,可以将它看成是一种随机性因素,它与个体健康状况之间并无直接关联。但住宅周围有合适的锻炼场所却能有效增加居民的体育参与水平。因此,这一变量基本上满足了工具变量的两个基本要求,但其实际应用效果仍然需要在后面的统计分析中予以检验。
排除限定变量:在Heckman模型中,为了求得估计系数的一致性,要求主方程是选择方程的严格子集。因此,需要设置排除限定变量,本研究设置了2个变量,即个体闲暇时间观看体育比赛的频率和运动能力是否受限,将前者处理为连续变量,将后者处理为二分变量。
协变量与控制变量:年龄,处理为连续变量;性别,处理为二分变量,其中女性为参照。户籍,处理为二分变量,农村为参照。民族,处理为二分变量,其中以汉族为参照。教育,处理为类别变量,问卷中有详细的教育史资料,可将其方便地操作化为4个类别:未受正规教育、义务教育、中等教育和高等教育,其中未受正规教育为参照类。收入,处理为连续变量,用个人年收入对数来衡量。14岁时的阶层认同,处理为连续变量,数量越大代表家庭的阶层地位越好。3年内是否体检,处理为二分变量,其中以未体检为参照类。
需要说明的是,既往的文献中都曾报告过教育、收入对健康的积极影响。因此本研究将其作为控制变量纳入分析[15]。此外,14岁时的家庭阶层认同能间接测定儿童少年时期的家庭社会经济地位,有研究表明它对个体儿童期的健康水平有着直接的影响[16]。因此,在本研究数据分析中也将这一变量一同纳入分析,以控制个体基础健康水平上的差异性。
3.2 样本基本情况
在对变量进行操作化处理的基础上,本研究舍去信息不全的样本,最终获得有效样本2 819个(见表1)。
从表1可见,个体自评健康平均得分为3.63,表明多数被访对象健康自评良好。体育参与频率为2.31,表明整体体育参与水平仍然是中等偏下,这与实际情况大致相符。样本中男性占53%,女性占47%,城市户口占49%,农村户口占51%。这表明样本中,性别、户籍类别在数量上基本均衡。
4 结果与分析
4.1 OLS模型估计
为了直观比较Heckit模型以及IV-Heckit模型对偏误系数修正效果,本研究首先选择对经典OLS模型进行系数估计,估计结果见表2的模型1。
从模型1的系数估计可以看出,体育参与频率和个体健康水平之间有正向影响,并在0.01水平下显著。尽管这与预期一致,但不能由此得出因果判断,更不能将这里的系数看成是因果效应值。教育、收入对健康的正向影响在这里也得到了验证。14岁时的家庭社会地位对基础健康的影响也相应地影响到成人后的健康状况,在OLS模型中也得到了验证。模型1还显示,环境因素对健康有显著的负向影响,即住宅周围有环境污染的被访对象普遍报告较低的自评健康水平。此外,3年内是否有体检行为则对健康有负向影响,这一结果多少与预期有些差异。但结合中国居民的实际情况,这一负向影响也能得到合理的诠释。随着社会进步和人们社会生活水平的提高,体检也成了人们健康维护的重要途径。尽管如此,个人主动体检的情况还属于少数人的行为。因此,除了入职和单位组织的常规体检外,个体主动的体检行为多是个人觉得身体状况出现异常的情况下才会发生。鉴于这种情况在居民中比较常见,因此从总体上而言,体检行为也意味着身体健康状况可能已经出现了问题,从而体检行为和身体健康状况呈现出的负向关系也就不足为怪了简言之,模型1的分析表明多数控制变量与因变量有关联,在分析中将这些变量纳入控制是有必要的。
4.2 Heckit模型估计
模型2是考虑了样本选择问题的赫克曼模型估计结果。主要自变量体育参与水平和个体的健康自评之间仍然是正向影响,但其效应系数值在经过样本选择性偏差处理以后,变得更小了。这表明分析样本有反向选择倾向。该判断随后从逆米尔斯系数估计中得到相应的佐证。模型2显示,逆米尔斯比率估计值为-1.69,且在0.01显著性水平下具有统计意义,这表明体育行为与健康之间有某种负向选择关系。
如何解释体育锻炼与健康的负向选择关系?本研究认为有两个原因造成这种负向选择倾向,一是与中国居民体育锻炼行为有关,另一个是人们对体育锻炼的认识偏差所致。彭大松[17-18]基于全国调查数据发现了体育锻炼和年龄之间的“U”型曲线。这种“U”型曲線在一定程度上也真实地反映了中国居民的锻炼行为。年轻人有较高的体育参与水平,可能更多地得益于学校体育将体育作为一门必修课程。老年人体育参与水平高,一方面是因为从工作岗位退休后,有更多的时间从事体育锻炼。另一方面,老年阶段会出现各种健康问题,使得老年人的健康危机意识增强,从而成为参与体育锻炼的重要动因。本研究中的被访对象平均年龄为46.7岁,被访对象中的在校学生较少。体育锻炼与年龄的关系更多地表现为U型曲线的右侧一半,即随着年龄的增长,身体状况在下降,同时体育参与水平却在上升。此外,撇开年龄因素不说,人们对体育锻炼行为的认识也是有偏差的,即认为体育锻炼仅仅是一种强健身体的手段,而不是一种生活中的必要行为。因此,体弱者为了强健身体,可能有更大的意愿参与体育,从而在实际中表现出频繁参加体育锻炼。相反,对体质好的人来说,体育锻炼的预期价值较低,体育锻炼的动机和实际参与也因此相对较低。
为了检验上述两种解释,将赫克曼模型的选择方程中加入反映身体质量的变量BMI,然后进行统计分析。为了直观地反映这种选择关系,用图形的方式呈现出来,纵轴是根据新模型计算出的体育参与水平的预测值,用stata软件进行修匀处理作图(见图1、图2)。
从图1可以看出,中国人体育锻炼行为具有年龄选择性,即随着年龄的增长,体育参与越频繁。图2的曲线表明体育锻炼与体质状况的负向选择性,体质好的个体平均锻炼的频次反而下降。因此,体育锻炼与健康的负向影响在这一机制中得到了合理的解释。 (3)体育资源布局不均衡将引发体育参与的不平等和健康不平等问题。在实际的城市建设中,体育配套资源常常作为住宅品质的附加价值的一部分。城市规划者优先将体育配套资源(如公园、绿地等)布局在富裕的住宅区而不是相反,这一境况将引发体育参与不平等问题。进一步而言,在本研究已经正式体育锻炼有正向促进身体健康的前提下,体育参与的不平等将不可避免地引发健康不平等问题。这一发现需要引起学界的重视,也需要进一步的深入研究。
当然,本研究除了新方法的运用和新发现之外,也存在一些不足之处。例如对健康的测度,采用的是自评健康指标(尽管这一指标为学界广泛采用),但相对体育对健康的作用而言,仍然不够全面。期待今后的研究中,对健康进行更加准确的测度,才能全面评价体育对健康的贡献。此外,也呼吁体育领域中大型的全國抽样调查数据,应包括更多的社会背景资料(特别是生活史方面的信息)和多方面健康测度指标,也应该像其它学科那样将其公布于公共数据平台,为更多学者所用,以此来推进相关领域的研究。
参考文献:
[1] PENEDO,FRANK J,DAHN,et al. Exercise and well-being: a review of mental and physical health benefits associated with physical activity[J]. Current Opinion in Psychiatry,2005,3(18):189-193.
[2] RUSSELL R P,MICHAEL P,STEVEN N B,et al. Physical activity and public health a recommendation from the centers for disease control and prevention and the American college of sports medicine[J]. The Journal of American Medical Association,1995,273(5):402-407.
[3] GABRIELLE P,RODRIGO S R,CASSIANO R,et al. Quality of life and physical activity among adults:population-based study in Brazilian adults[J]. Quality of Life Research,2012,11(9):1537-1543.
[4] MICHAEL J,BLAIR S N. Physical activity,cardiorespiratory fitness,and adiposity:contributions to disease risk[J]. Current Opinion in Clinical Nutrition