论文部分内容阅读
目的:在抽样调查中,若关心的变量或特征是涉及个人隐私或不被社会认可的敏感性问题,则采用直接调查的方法会使部分被调查对象出于自我保护的心理而产生一定程度的不合作甚至拒绝回答,调查结果难以反映总体的真实特征。为了提高敏感问题的正确应答率,Warner通过引入随机化装置,成功实现了在不暴露应答者隐私的情况下获得人群中某敏感性问题的发生比例,开创了随机应答技术(Randomized Response Technique, RRT)的先河。几十年来,在随机应答技术研究领域出现了一大批Warner模型的改进模型,以及一些新的调查方法。然而,在本团队研究之前,国内外研究较多的敏感问题类型为二项选择敏感问题和数量特征敏感问题,而对于多项选择敏感问题较少关注;研究较多的敏感问题抽样调查的统计方法主要局限于简单随机抽样,实际应用也主要局限于小范围特殊人群小样本的简单随机抽样调查,或在大规模调查中将复杂抽样调查方法获取的敏感问题资料误用简单随机抽样调查有关公式来统计分析;近年来本团队对各种随机应答模型与整群抽样、二阶段抽样、二阶段整群抽样、分层随机抽样、分层整群抽样、分层二阶段抽样方法组合的各种敏感问题调查的统计方法进行了研究;在敏感问题大规模的抽样调查中,三阶段抽样、分层三阶段抽样常常被采用,但对敏感问题三阶段、分层三阶段抽样的统计方法,国内外至今未见报道。有鉴于此,本文对9种随机应答模型与三阶段抽样及分层三阶段抽样2种抽样方法组合的共18种调查方法,从数学上推导出二分类敏感问题总体比例、多分类敏感问题各类别总体比例、数量特征敏感问题总体均数的估计量及其方差、估计方差的计算公式;并采用本文研究的调查方法及给出的统计公式,对北京市男男性行为者(men who have sex with men, MSM)这一艾滋病高危人群的敏感问题特征进行抽样调查分析,为掌握北京市性病、艾滋病的流行趋势提供重要的数据,为有关部门制定性病、艾滋病预防控制规划、措施提供科学依据;并在此基础上,以北京市实际调查的统计量数值作为总体参数,采用SAS编程建立模拟总体并做模拟分层三阶段抽样和随机应答过程100次,用本文推导的公式对100个样本进行100次总体参数的点估计和区间估计,通过与实际总体参数的比较,来评价本文研究的调查方法及其统计公式的信度与效度。方法:一、对二项选择敏感问题Warner随机应答模型、二项选择敏感问题Simmons随机应答模型、二项选择敏感问题双无关问题模型和二项选择敏感问题改进的随机应答模型,多项选择敏感问题单一样本随机应答模型、多项选择敏感问题随机间接应答模型以及数量特征敏感问题无关联问题模型、数量特征敏感问题加法模型、数量特征敏感问题乘法模型9种随机应答模型,与三阶段抽样、分层三阶段抽样2种抽样方法组合的共18种调查方法,根据Cochran的经典抽样理论、全概率公式、均数的基本性质、方差的基本性质等概率论与数理统计学理论方法,推导出二分类敏感问题总体比例、多分类敏感问题各类别总体比例、数量特征敏感问题总体均数的估计量及其方差、估计方差的计算公式。二、设计RRT的随机化装置,制定敏感问题的调查问卷,采用二项选择敏感问题Simmons模型、多项选择敏感问题单一样本随机应答模型、数量特征敏感问题加法模型及三阶段抽样、分层三阶段抽样方法,对北京市男男性行为人群的敏感性问题进行调查;并按本文给出的统计公式,对调查资料作统计分析,计算出各类敏感问题总体比例、总体各类别比例、总体均数的估计量及其估计方差。三、按照北京市的区县数、MSM活动场所数、MSM人数,敏感特征实际调查的样本比例、或各类别样本比例、或样本均数作为总体参数,基于蒙特卡洛方法,用SAS编程建立模拟总体。分别对二项选择敏感问题Warner随机应答模型、二项选择敏感问题Simmons随机应答模型、二项选择敏感问题改进的随机应答模型、多项选择敏感问题单一样本随机应答模型以及数量特征敏感问题加法模型、数量特征敏感问题乘法模型等6种RRT模型与三阶段、分层三阶段2种抽样方法组合的12种调查方法,用SAS编程模拟抽样调查100个样本,第一阶段随机抽取3个区县、第二阶段在抽中的3个区县各抽取5个MSM活动场所、第三阶段平均在每个活动场所随机抽取169人(抽样比0.6),合计每个样本共2533人。按本文推导的相应公式计算总体比例、各类别总体比例或总体均数的估计量及其估计方差;分别对100个样本:计算100个(二分类敏感问题)总体比例或(数量特征敏感问题)总体均数的点估计和95%区间估计,来评价本文研究的调查方法及其统计公式的准确性(效度)和精确度(信度)。若100个95%置信区间几乎都包含总体比例、均数,可认为100个样本比例(或样本均数)几乎均接近总体比例(或总体均数),说明该本文研究的(分层)三阶段抽样下RRT调查方法及其统计公式具有良好的效度;又因100个样本比例(或样本均数)均接近相同水平,同时也说明本文研究的(分层)三阶段抽样下RRT调查方法及其公式具有良好的信度。结果:一、本文设计了二项选择敏感问题Warner模型、Simmons模型、双无关问题模型、改进的随机应答模型,多项选择敏感问题单一样本随机应答模型、随机间接应答模型,数量特征敏感问题无关联问题模型、加法模型、乘法模型9种RRT模型与三阶段、分层三阶段2种抽样方法组合的18种调查方法,分别对18种调查方法,推导出敏感问题总体比例、各类别总体比例、总体均数的估计量及其方差、估计方差的计算公式。二、本文对北京市男男性行为人群进行了敏感问题3种随机应答模型下三阶段,分层三阶段抽样调查。分层三阶段抽样得到如下主要初步调查结果:北京市MSM人群首次男男性行为的年龄均数为21.96岁、标准误为0.144岁;男男性行为月人均不同性伴人数2.80人,标准误为0.096人;月人均男男性行为次数为4.85次,标准误为0.559次;最近一次肛交男男性行为安全套全程使用的比例为77.80%,标准误为1.88%;最近一个月男男性行为中从不全程使用安全套、有时全程使用安全套、每次全程使用安全套、没有肛交的比例分别为6.46%、31.78%、51.81%、9.96%,其标准误分别为0.77%、0.71%、0.95%、0.44%;最近一年男男商业性性行为的次均费用<200元、200~399元、400-599元、600元以上、无男男商业性性行为的比例分别为5.65%、4.86%、2.67%、6.48%、80.34%,其标准误分别为0.70%、0.49%、0.57%、0.76%、2.20%;最近一年HIV病毒检测结果为阳性、阴性、结果不确定、没有检查过的比例分别为6.31%、78.67%、2.89%、6.45%,其标准误分别为0.42%、1.96%、0.28%、0.45%;最近一年到正规医疗机构性病检测结果有性病、无性病、结果不确定、没有检查过的比例分别为16.79%、67.02%、6.25%、5.23%,其标准误分别为0.66%、1.98%、0.46%,0.33%;男男性行为的方式为肛交、口交的比例分别为65.83%、18.70%,其标准误分别为0.930%、0.658%;安全套使用有破损的比例为5.50%,其标准误为0.57%。三、对6种RRT模型与三阶段、分层三阶段2种抽样方法组合的12种调查方法进行100次计算机模拟抽样结果如下:1、模拟二分类敏感问题Simmons模型分层三阶段抽样调查北京市MSM人群最近一次肛交安全套全程使用的比例,由样本统计量和样本方差推断的100个总体比例的95%可信区间有99个包含总体比例,且各样本比例均接近总体比例(模拟真值),说明本文研究的二分类敏感问题Simmons模型下(分层)三阶段抽样的调查方法及其统计公式具有良好的信度与效度。2、模拟二分类敏感问题Warner模型分层三阶段抽样调查北京市MSM人群最近一次肛交安全套全程使用的比例,由样本统计量和样本方差推断的100个总体比例的95%可信区间有96个包含总体比例,且各样本比例均接近总体比例(模拟真值),说明本文研究的二分类敏感问题Warner模型下(分层)三阶段抽样的调查方法及其统计公式具有良好的信度与效度。3、模拟二分类敏感问题改进的RRT模型分层三阶段抽样调查北京市MSM人群最近一次肛交安全套全程使用的比例,由样本统计量和样本方差推断的100个总体比例的95%可信区间有97个包含总体比例,且各样本比例均接近总体比例(模拟真值),说明本文研究的二分类敏感问题改进的随机应答模型下(分层)三阶段抽样的调查方法及其统计公式具有良好的信度与效度。4、模拟多分类敏感问题单一样本模型分层三阶段抽样调查北京市MSM人群男男性行为方式,模拟结果显示:对于分类一(肛交),100次模拟中有96次得到的该分类总体比例95%可信区间包含其总体比例。对于分类二(口交),100次模拟中有99次得到的该分类总体比例95%可信区间包含其总体比例。对于分类三(其他),100次模拟中只有97次得到的该分类总体比例95%可信区间包含其总体比例。,说明本文研究的多分类敏感问题单一样本模型下(分层)三阶段抽样的调查方法及其统计公式具有良好的信度与效度。5、对数量特征敏感问题加法模型,100个总体均数的95%可信区间均包含总体均数,且各样本均数均接近总体均数(模拟真值),说明本文研究的数量特征敏感问题加法模型下(分层)三阶段抽样的调查方法及其统计公式具有良好的信度与效度。6、对数量特征敏感问题乘法模型,100个总体均数的95%可信区间均包含总体均数,且各样本均数均接近总体均数(模拟真值),说明本文研究的数量特征敏感问题乘法模型下(分层)三阶段抽样的调查方法及其统计公式具有良好的信度与效度。结论:1、本文分别对敏感问题9种随机应答模型与三阶段、分层三阶段2种抽样方法组合的共18种调查方法,从数学上首次推导出敏感问题特征总体比例、总体各类别比例、总体均数的估计量及其方差、估计方差的统计公式,并成功应用于北京市男男性行为人群这一性病、艾滋病高危人群的敏感问题调查分析,取得了良好的实际应用效果。说明本文研究的调查方法及其统计公式科学且具有较大的理论和实际意义。2、应用本文研究的敏感问题RRT分层三阶段抽样调查分析结果提示:北京市男男性行为人群存在无固定性伴、肛交为主要性行为方式、全程使用安全套比例低、男男商业性性行为比例高(高达19.66%),未进行HIV病毒检测(达到6.54%)与未进行性病检测(达5.23%)比例高、安全套破损比例高(达到5.50%)等艾滋病、性病高危性行为,性病艾滋病的防控形势不容乐观,应引起政府、卫生部门的高度重视,寻找合理的应对措施。3、分别对6种RRT模型与三阶段、分层三阶段2种抽样方法组合的12种调查方法,进行100个样本的计算机模拟抽样与RRT调查,结果显示100个置信区间几乎都包含总体参数,说明本文研究的敏感问题调查方法及其公式具有良好的信度和效度。