论文部分内容阅读
研究背景抽样调查是健康领域最重要的研究方法之一,大型的健康服务抽样调查往往采用多阶段、分层、整群和不等概率等多种抽样技术相结合的复杂抽样调查(Complex Survey,CS)。CS的优点是可灵活分配各级抽样单元的样本量,节省人力物力,使调查更容易实施,但由于抽样框架不能包含抽样总体所有单元、无法设定过多入组和排除标准等原因,样本选择偏倚较大、混杂因素较多。为控制偏倚、更精准估计总体参数,研究人员常将抽样权重和混杂因素纳入效应估计模型,但随着混杂因素维度的增加估计模型估计性能会逐步降低。降低混杂因素的维度是提高效应估计效能的关键。倾向评分(Propensity Score,PS)法是将多个混杂因素综合为一个评分,达到同时控制多种混杂因素、减少偏倚的目的,其中倾向评分匹配法(Propensity Score Matching,PSM)应用最为广泛。而传统的倾向评分法假设数据来源于简单抽样数据,并不能直接应用于复杂抽样数据分析。目前,复杂抽样倾向评分匹配法(CS-PSM法)相关研究主要关注抽样权重和群效应影响,即PS估计和效应估计两个阶段是否需要考虑和如何考虑权重以及群效应,目前相关研究并未形成一致结论。前期有研究基于2013年陕西省国家卫生服务调查数据,发现代答(Proxy Response)会显著影响EQ-5D量表的报告结果,该研究采用多因素回归法和传统倾向评分匹配法,并未考虑陕西省国家卫生服务调查的复杂抽样设计特征,其研究结果尚需CS-PSM法进一步验证。研究目的(1)通过模拟比较提出适用于复杂抽样两分组数据的倾向评分法统计分析模型,为倾向评分效应分析法在复杂抽样数据的分析中的应用提供方法学参考。(2)基于复杂抽样倾向评分法,评价陕西省国家卫生服务调查中全人群及地域、城乡等不同亚组人群EQ-5D量表的代答效应特征及差异,为代答效应的控制和调整提供建议。研究方法1.数据来源(1)2013年陕西省第五次国家卫生服务调查抽样设计数据2013年陕西省第五次国家卫生服务调查抽样设计数据包含陕西省11个市、21个国家样本县(区)和11个陕西省扩增试点县(区)、64个乡镇、320个村,45336人。此外,还包括2010年陕西省人口普查数据中各级行政单位的人口数。(2)2013年陕西省第五次国家卫生服务调查结果数据2013年陕西省第五次国家卫生服务调查结果数据主要来自《家庭健康询问调查表》,包括家庭一般情况、家庭成员个人情况、前两周病伤情况、前一年内住院情况等内容。本研究纳入12个协变量指标:是否为户主、年龄、性别、婚姻状况、文化程度、就业情况、吸烟情况、喝酒情况、体育锻炼情况、是否患慢性病、前两周病患情况、住院情况;6个EQ-5D量表维度指标:行动能力(MO)、自我照顾(SC)、日常活动(UA)、疼痛/不适(PD)、压力/抑郁(AS)以及自评分(VAS)。2.分析方法(1)基线特征及EQ-5D量表应答描述性分析对2013年陕西省国家卫生服务调查中的自答/代答人群的基本特征、EQ-5D量表应答情况进行描述性统计分析,并对组间差异进行统计学检验。(2)基于Monte-Carlo模拟的不同效应分析法比较分析(1)构建3种传统的效应分析模型:单因素效应分析法(SL法)、多因素效应估计法(ML法)、复杂抽样效应估计法(CS法);构建3种倾向评分匹配法效应分析模型:传统倾向评分匹配法(PSM法)、仅在倾向评分估计阶段考虑复杂抽样权重的倾向评分匹配分析法(CS-PSM1法)、倾向评分估计阶段和效应估计阶段均考虑复杂抽样权重的倾向评分匹配分析法(CS-PSM2法)。(2)在假设2013年陕西省国家卫生服务调查数据为抽样总体和抽样样本两种场景下,采用Monte-Carlo方法对其进行等概率和不等概率模拟抽样,对抽取的样本采用6种方法进行效应分析。以自答为对照组,代答为处理组,针对EQ-5D量表5个分类维度,估计代答效应的OR值均值及其标准误、OR值标准误均值及其标准误和赤池信息准则(AIC)值均值及其标准误,针对EQ-5D量表2个计量维度,估计代答效应的相关估计值的均值及其标准误、相关估计值标准误均值及其标准误和线性回归效应分析模型的拟合优度R~2。通过6种方法的参数估计结果,比较分析效应分析模型的稳定性、准确性和灵敏性,评价出相对较好的模型。(3)验证性分析及实例应用基于2013年陕西省国家卫生服务调查数据,对6种效应分析方法的比较结果进行验证性分析。采用准确性、稳定性和灵敏性较好的模型,分析陕西省陕南、关中、陕北三个地区亚组和城市、乡村亚组以及陕南城市、陕南乡村、关中城市、关中乡村、陕北城市、陕北乡村亚组的EQ-5D量表各维度、EQ-5D VAS和EQ-5D SCORE的代答效应的大小和方向,提出控制代答偏倚的意见建议。结果1.2013年陕西省国家卫生服务调查代答/自答人群结果特征及EQ-5D量表应答情况本次调查中,代答人群9084人、自答人群36252人,代答率高达20.03%。代答人群中非户主占比81.3%、年龄15-44岁占比58.6%、未婚占比30.9%、高中文化程度占比17.5%、就业情况在校学生占比14.6%均高于自答人群。自答人群中吸烟率29.2%、喝酒率18.2%、从不锻炼占比76.1%、患慢性病占比23.1%、前两周患病占比19.5%均高于代答人群。EQ-5D量表5个维度中,回答有问题人群中大于65岁、女性、丧偶、没上过学、无业、慢性病患病、前两周患病、住院情况占比高于回答无问题人群。2.不同场景下的Monte-Carlo模拟结果模拟场景1:将2013年陕西省国家卫生服务调查数据作为抽样总体,县(市、区)、镇(街道)、村(居委会)抽样概率为0.25、0.50、0.75等比例抽样条件下抽取样本。抽取的样本在12个混杂因素中,匹配前是否为户主、已婚和45-64岁三个方面SMD>0.2;经PSM法、CS-PSM1法、CS-PSM2法倾向评分匹配后,12个混杂因素均得到均衡。OR值均值波动性SL法最大,其次是ML法、CS法,CS-PSM2法、PSM法、CS-PSM1法波动较小。OR值标准误均值CS法最大,其次是ML法、CS-PSM2法、PSM法、CS-PSM1法、SL法。SL法部分估计结果与其他方法结果方向相反。AIC值均值CS-PSM2法最大,其次是CS法、SL法、ML法、PSM法、CS-PSM1法。随着抽样比例的升高,各方法的OR值均值的标准误、OR值标准误均值在逐渐减小,AIC值逐渐增大。模拟场景2:将2013年陕西省国家卫生服务调查数据作为抽样样本,对源数据加权处理后认定为抽样总体,按照每市取1县,每县抽取40%镇,每镇抽取50%村不等概率条件下抽取样本。抽取的样本在12个混杂因素中,匹配前,是否为户主、已婚和45-64岁三个方面SMD>0.2;经PSM法、CS-PSM1法、CS-PSM2法倾向评分匹配后12个混杂因素均得到均衡。OR值均值波动性SL法最大,其次是ML法、CS法、CS-PSM2法、PSM法、CS-PSM1法。OR值标准误均值CS法最大,其次是ML法、CS-PSM2法、PSM法、CS-PSM1法、SL法。AIC值均值CS-PSM2法最大,其次是CS法、SL法、ML法、PSM法、CS-PSM1法。3.2013年陕西省国家卫生服务调查代答效应估计验证结果运用SL法、ML法、CS法、PSM法、CS-PSM1法、CS-PSM2法六种方法估计EQ-5D量表的各维度代答效应(OR值):MO维度分别为1.470、1.611、1.732、1.573、1.606、1.533;SC维度分别为2.174、2.253、2.490、2.266、2.245、2.171;UA维度分别为1.819、1.916、2.050、1.864、1.897、1.777;PD代答效应OR值分别为0.898、1.162、1.178、1.177、1.189、1.093;AS代答效应OR值分别为1.135、1.379、1.377、1.480、1.468、1.372;EQ-5D VAS代答效应相关估计值分别为0.666、-1.524、-1.298、-1.509、-1.550、-1.326;EQ-5D SCORE代答效应相关估计值分别为-0.014、-0.023、-0.016、-0.023、-0.023、-0.017。总体上,代答者更容易在EQ-5D量表各维度报告健康问题,同时报告更低的EQ-5D VAS和EQ-5D SCORE。4.运用CS-PSM1法估计陕西省区域、城乡中EQ-5D量表各维度代答效应代答在关中、陕南、陕北三个地区亚组普遍存在,代答率分别为关中20.1%、陕南18.4%、陕北22.4%。EQ-5D中MO的代答效应(OR值)陕南为1.587、关中为1.641、陕北为1.465;SC的代答效应(OR值)陕南为2.164、关中为2.490、陕北为2.332;UA的代答效应(OR值)陕南为1.751、关中为2.171、陕北为1.693;PD的代答效应(OR值)陕南为2.727、关中为1.242、陕北为1.408;AS的代答效应(OR值)陕南为1.169、关中为1.537、陕北为1.976,;EQ-5D VAS的代答效应(相关估计值)陕南为-1.477、关中为-1.973、陕北为-0.961。在三个地区代答普遍会将EQ-5D量表各维度调查结果严重化。代答在城市、乡村亚组中存在且分布不同,代答率分别为城市26.7%、乡村16.3%。EQ-5D中MO的代答效应(OR值)城市为1.526、乡村为1.628;SC的代答效应(OR值)城市为2.172、乡村为2.291;UA的代答效应(OR值)城市为1.729、乡村为2.017;PD的代答效应(OR值)城市为1.078、乡村为1.265;AS的代答效应(OR值)城市为1.207、乡村为1.502;EQ-5D VAS中代答效应(相关估计值)城市为-0.423、乡村为-1.206;EQ-5D SCORE的代答效应(相关估计值)城市为-0.013、乡村为-0.028。陕南城市EQ-5D量表调查结果受代答影响相对较严重,陕北城市受代答影响最小。陕南区域内,EQ-5D量表5个维度代答点估计值城市均要高于乡村;关中区域内,城市中EQ-5D量表5个维度代答点估计值均要低于乡村;陕北区域内,城市中EQ-5D量表5个维度代答点估计值只有焦虑/沮丧方面有统计学意义,且小于乡村。VAS方面,关中乡村受代答影响最大(-1.173),陕北城市受代答影响最小(-0.103)。SCORE方面,关中乡村受代答影响最大(-0.029),陕南城市受代答影响最小(-0.002)。结论1.陕西省2013年国家卫生服务调查的代答率较高,在未控制其他因素的情况下,代答人群在EQ-5D量表的行动能力、自我照顾、日常活动和焦虑/抑郁方面报告健康问题的比例比自答人群的比例更高,同时,健康自评分更高,代答人群与自答人群EQ-5D调查结果差异的来源,需要考虑人群特征差异等可能的混杂因素后,采用与复杂抽样设计相匹配的分析方法进行准确估计。2.对于两分组复杂抽样数据,PSM法、CS-PSM1法、CS-PSM2法均能够均衡协变量的组间分布。CS-PSM1法相较于SL法、ML法、CS法和PSM法、CS-PSM2法,不仅均衡了混杂因素,还充分考虑了抽样权重,在效应分析结果的稳定性、准确性和灵敏性方面更具优势。3.代答普遍有将EQ-5D量表各维度调查结果严重化的趋势,且对EQ-5D量表客观维度(MO、SC、UA)调查结果严重化程度高于EQ-5D量表主观维度(PD、AS),SC维度受代答影响最严重。代答效应对EQ-5D量表调查结果影响存在区域和城乡差别,乡村相较城市受代答效应影响更加严重,各区域受代答效应影响并不相同,分析EQ-5D量表调查结果需要考虑代答偏倚。