数量特征敏感问题样本轮换下连续调查的统计方法及应用

来源 :苏州大学 | 被引量 : 1次 | 上传用户:wjkylin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:所谓敏感性问题的研究,即在抽样调查中,若关心的变量或个体是涉及个人隐私或不被社会认可的敏感性问题,采用直接调查的方法会使部分被调查对象出于自我保护的心理而产生一定程度的不合作甚至拒绝回答,调查结果难以反映总体的真实特征。由于敏感性问题的特殊性,不宜采用常规的调查方法来研究,这就要求调查者不断提出特殊的、科学可行的新方法来减少误差,提高受访者的应答率,使结果更加真实可靠。为了提高敏感性问题的正确应答率,Warner通过引入随机化装置,成功实现了在不暴露应答者隐私的情况下获得人群中某敏感性问题的发生比例,开创了随机应答技术(Randomized Response Technique,RRT)的先河。抽样调查是经济社会学、卫生工作及医学科研中的重要统计学方法,是统计学的基本内容。随着社会经济的不断发展和变化,很多调查对象的总体也在不断发展和变化。一方面,为了调查总体在不同时间上的水平及其变化、累计或平均水平,尤其对很多重要的医学方面调查等,须采用连续调查(每隔一定时间对同一总体反复调查),我国建立的统计调查体系正是以经常性的连续调查为主体。另一方面,对固定样本进行多次调查存在代表性下降和样本疲劳两个严重问题;在不同次调查中重新抽取不同的新样本,也存在另几个严重问题:如不能利用固定样本的前期资料对现期总体做出精度较高的回归组合估计,与固定样本相比,调查费用更高,难度更大,时间更长等等。为了权衡这两方面的问题,国内外的统计学家早已研究出样本轮换(在样本容量不变的前提下,每隔一定时间更换部分样本单位)的好方法。目前国内外对一次性抽样调查的研究较多,理论及方法比较成熟,而对于连续调查的研究较少,理论与方法很不成熟。有关连续抽样调查的研究,在本团队研究之前,国内外主要局限于对简单随机抽样调查中的样本轮换问题的研究,复杂抽样方法下连续调查中样本轮换问题的研究甚少,尤其对敏感问题连续抽样调查的研究至今是空白。敏感问题连续抽样调查的研究,是国内外卫生与医学统计学及统计学中抽样研究的发展趋势,是国内外统计学及统计学理论与方法学的重要研究课题。基于此,本文第一部分,分别对敏感问题数量特征加法RRT模型、敏感问题数量特征乘法RRT模型2种RRT模型与简单随机抽样下样本轮换的连续调查、分层简单随机抽样下样本轮换的连续调查、整群抽样下样本轮换的连续调查、分层整群抽样下样本轮换的连续调查、二阶段抽样下样本轮换的连续调查、分层二阶段抽样下样本轮换的连续调查6种连续调查方法组合的12种调查方法,提供总体均值的估计量及其方差、最优样本轮换率与回归组合估计的最优权数的计算公式。本文第二部分,采用本文第一部分研究的调查方法及其统计公式,对北京市男男性行为这一艾滋病高危人群进行了连续抽样调查分析,为艾滋病的预防控制提供准确可靠的数据。本文第三部分,分别对本文第一部分研究的12种敏感问题连续抽样调查方法及其统计公式,采用大样本个数的计算机模拟抽样调查分析,评价信度与效度。方法:一、在调查方法的设计及统计公式的推导证明中:统计抽样的理论方法、回归估计的理论方法、比率估计的理论方法、连续调查的理论方法、样本轮换的理论方法及概率统计的基本理论方法被应用;简单随机抽样、分层简单随机抽样、整群抽样、分层整群抽样、两阶段抽样、分层两阶段抽样6种抽样方法被采用;数量特征加法RRT模型、数量特征乘法RRT模型被采用。二、本团队对非敏感性问题使用分层简单随机抽样下样本轮换的连续调查、整群抽样下样本轮换的连续调查、分层整群抽样下样本轮换的连续调查、二阶段抽样下样本轮换的连续调查、分层二阶段抽样下样本轮换的连续调查、二阶段整群抽样下样本轮换的连续调查、分层二阶段整群抽样下样本轮换的连续调查七种调查方法,推导出总体均值的估计量及其方差与估计方差的计算公式,为本文进行了方法学前期探讨。三、样本轮换(Sample rotation)是提高调查的效率、减少和控制非抽样误差的重要手段。样本轮换由于既保留了部分原有样本单位,又增加了部分新样本单位,所以兼有全新样本与固定样本的优点,能在抽样费用与抽样精度之间取得平衡,并已大规模地应用于国内外连续调查的抽样中。本文采用上述研究的调查方法及其统计公式,对北京市男男性行为这一艾滋病高危人群进行了敏感问题样本轮换下整群连续抽样与分层整群连续抽样调查分析,数据管理与计算通过Excel 2003及MATLAB软件完成。四、本文分别对上述研究的12种敏感问题连续抽样调查方法及其统计公式,采用大样本个数的计算机模拟抽样调查分析,进行信度与效度评价。在信度、效度评价中,运用了信度、效度的评价方法;采用MATLAB作为模拟平台,数据分析、计算机编程设计相关程序及结果分析均是通过MATLAB软件实现。结果:一、推导出12种敏感问题样本轮换下连续调查的统计公式1.本文对数量特征敏感问题加法RRT模型简单随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。2.本文对数量特征敏感问题乘法RRT模型简单随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。3.本文对数量特征敏感问题加法RRT模型分层简单随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。4.本文对数量特征敏感问题乘法RRT模型分层简单随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。5.本文对数量特征敏感问题加法RRT模型整群随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。6.本文对数量特征敏感问题加法RRT模型分层整群随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。7.本文对数量特征敏感问题乘法RRT模型整群随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。8.本文对数量特征敏感问题乘法RRT模型分层整群随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。9.本文对数量特征敏感问题加法RRT模型二阶段随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。10.本文对数量特征敏感问题加法RRT模型分层二阶段随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。11.本文对数量特征敏感问题乘法RRT模型二阶段随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。12.本文对数量特征敏感问题乘法RRT模型分层二阶段随机抽样下样本轮换的连续调查,设计了调查方法,推导出敏感问题总体均数的估计量及其方差及最优权数与最优样本轮换率的计算公式。二、北京市MSM人群样本轮换下整群抽样与分层整群抽样的连续调查本文采用了敏感问题数量特征加法模型,分别于2010年、2012年连续两次调查北京市15-49岁男性MSM人群首次男男性行为的年龄,男男性行为月人均不同性伴人数,月人均男男性行为次数(参见附录一:敏感问题MSM人群RRT调查方案)。分别对敏感问题数量特征加法RRT模型的样本轮换下整群抽样、分层整群抽样进行了连续调查。1.敏感问题数量特征加法RRT模型的样本轮换下整群抽样连续调查结果:⑴第一次调查男男同性恋者首次发生男男性行为平均年龄的估计值为20.36岁,计算2012年北京市MSM人群首次男男性行为平均年龄的估计值为23.14岁,计算得2?Y的估计差为0.2112,由此可得2012年北京市MSM人群首次发生男男性行为年龄总体均数的95%置信区间为22.22~24.02(岁)。⑵计算得到第一次调查男男同性恋者不同男性性伴的月平均人数的估计值为3.48人,计算2012年北京市MSM人群不同男性性伴的月平均人数的估计值为3.20人,计算得2?Y的估计差为0.0448,2012年北京市MSM人群上月发生男男性行为不同男性性伴人数的总体均数95%的置信区间为2.79~3.61(人)。⑶计算得到第一次调查男男同性恋者上个月发生男男性行为的月平均次数的估计值为5.56次,计算2012年北京市MSM人群上个月所发生男男性行为平均次数估计值为4.30次,计算得2?Y的估计方差为0.1338,可得2012年北京市MSM人群上月发生男男性行为次数的总体均数95%的置信区间为3.58~5.02(次)。2.敏感问题数量特征加法RRT模型的样本轮换下分层整群抽样连续调查结果:⑴2010年第一次调查第一层男男同性恋者首次发生男男性行为平均年龄的估计值为19.66岁,第一次调查第二层男男同性恋者首次发生男男性行为平均年龄的估计值为21.10岁;计算北京市15-29岁MSM人群2012年第二次调查首次男男性行为平均年龄的估计值为21.97岁,计算北京市30-49岁MSM人群2012年第二次调查首次男男性行为平均年龄的估计值为27.11岁,计算北京市MSM人群2012年第二次调查首次男男性行为平均年龄的估计值为24.01岁,2012年北京市MSM人群首次发生男男性行为年龄总体均数的95%置信区间为23.49~24.53(岁)。⑵2010年第一次调查第一层男男同性恋者男男性行为不同性伴月人均人数的估计值为3.38人,计算得第一次调查第二层男男性行为不同性伴月人均人数的估计值为3.50人,计算北京市15-29岁MSM人群2012年第二次调查男男性行为不同性伴月人均人数的估计值为2.96人,计算北京市MSM人群2012年第二次调查男男性行为不同性伴月人均人数的估计值为2.30人,可得2012年北京市MSM人群上个月发生男男性行为不同性伴人数总体均数的95%置信区间为1.79~2.81(人)。⑶计算得第一次调查第一层男男同性恋者男男性行为月平均次数的估计值为5.12次,计算得第一次调查第二层男男性行为月平均次数的估计值为5.66次,计算北京市15-29岁MSM人群2012年第二次调查男男性行为月平均次数的估计值为4.61次,计算北京市30-49岁MSM人群2012年第二次调查男男性行为月平均次数的估计值为2.91次,计算北京市MSM人群2012年第二次调查男男性行为不同性伴月平均次数的估计值为3.90次,可得2012年北京市MSM人群首次发生男男性行为年龄总体均数的95%置信区间为3.69~4.12(次)。三、敏感问题样本轮换下连续调查的统计方法基于计算机模拟的信度与效度评价1.模拟数量特征加法RRT模型的样本轮换下简单随机抽样连续调查相对标准误差RSE的值为0.000012168,远远小于0.01;相对绝对误差RAE的值为0.00036479,远远小于0.01;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)包含模拟总体均数。2.模拟数量特征乘法RRT模型的样本轮换下简单随机抽样连续调查相对标准误差RSE的值为0.0007541,远远小于0.01;相对绝对误差RAE的值为0.0003870,远远小于0.01;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数.3.数量特征加法RRT模型的样本轮换下分层简单随机抽样连续调查相对标准误差RSE的值为0.000011415,远远小于0.01;相对绝对误差RAE值为0.00016318,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。4.数量特征乘法RRT模型的样本轮换下分层简单随机抽样连续调查相对标准误差RSE的值为0.0184,远远小于0.01;相对绝对误差RAE值为0.0021,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。5.数量特征加法RRT模型的样本轮换下整群抽样连续调查相对标准误差RSE的值为0.00082199,远远小于0.01;相对绝对误差RAE值为0.000099452,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。6.数量特征加法RRT模型的样本轮换下分层整群抽样连续调查相对标准误差RSE的值为0.0071451,远远小于0.01;相对绝对误差RAE值为0.00037591,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。7.数量特征乘法RRT模型的样本轮换下整群抽样连续调查相对标准误差RSE的值为0.0011,远远小于0.01;相对绝对误差RAE值为0.00022685,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。8.数量特征乘法RRT模型的样本轮换下分层整群抽样连续调查相对标准误差RSE的值为0.0069,远远小于0.01;相对绝对误差RAE值为0.00089859,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。9.数量特征加法RRT模型的样本轮换下两阶段抽样连续调查相对标准误差RSE的值为0.00077796,远远小于0.01;相对绝对误差RAE值为0.000099244,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。10.数量特征加法RRT模型的样本轮换下分层两阶段抽样连续调查相对标准误差RSE的值为0.00056284,远远小于0.01;相对绝对误差RAE值为0.00089019,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。11.数量特征乘法RRT模型的样本轮换下两阶段抽样连续调查相对标准误差RSE的值为0.00059809,远远小于0.01;相对绝对误差RAE值为0.00029276,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。12.数量特征乘法RRT模型的样本轮换下分层两阶段抽样连续调查相对标准误差RSE的值为0.00091709,远远小于0.01;相对绝对误差RAE值为0.00023691,远远小于0.01,接近于总体均数;对模拟抽样的100个样本,计算100个样本均数的估计量及其方差,获得100个样本的总体均数95%置信区间,全部(100%)个包含模拟总体均数。结论:1.本文分别对敏感问题2种随机应答模型与6种连续抽样方法组合共12种调查方法,从数学上首次推导出敏感问题总体均数的估计量、总体均值估计量的方差及最优权数与最优样本轮换率的计算公式,填补了抽样研究统计方法上的空白。2.采用本文研究的调查方法及其统计公式,成功应用于北京市男男性行为人群这一艾滋病高危人群的敏感问题调查分析,取得了良好的实际应用效果,可看出样本轮换下分层整群抽样连续调查比样本轮换下整群抽样连续调查的抽样误差更小、可信区间的精度更高。调查分析结果为相关部门制定艾滋病预防控制措施提供了重要的科学依据,也说明本文研究的调查方法及其统计公式具有较大的实际意义。3.对敏感问题样本轮换下连续调查的统计方法基于计算机模拟的信度与效度评价结果说明,本文研究的12种敏感问题连续抽样的调查方法及其统计公式具有很高的信度与效度。
其他文献
改革开放以来,中国的对外贸易发展取得了令世界瞩目的成就,贸易的规模迅速扩大,对国民经济的贡献率不断提高,连续六年成为世界货物贸易第一出口大国和第二进口大国;进入21世
内蒙古乌盟地区专业运输企业─—乌盟运输,总公司近一年来由于外部环境和内部管理等因素而造成严重亏损,企业面临着十分困难的局面。对此,乌盟盟委、行署和主管部门交通处十分重
目的地居民是旅游业可持续发展的核心利益相关者,研究目的地居民对旅游影响的感知和态度,对促进旅游业的可持续健康发展具有重要的实践意义。以2005-2014年为时间段,以万方数
深化改革加快发展使全区交通工作再上新台阶──交通厅厅长郑长淮在全区交通工作会议上的讲话(摘要)(1994年3月15日)同志们:全区交通工作会议,在自治区党委、政府的重视、支持下,今天开幕了
目的:分析2014年内蒙古自治区10~18岁蒙古族中小学生体育锻炼活动家庭支持性环境现状及对运动能力的影响,为引导家长树立正确体育教育观念提供理论依据。方法:将研究对象按照
酒店在线预订服务作为在线旅游研究的要点之一,获得众多学者的关注。当下在线旅游业发展从以产品为中心转变为以顾客为中心。本文以顾客需求作为研究基础,对我国在线旅游预订
第一部分 地佐辛与吗啡联合用于骨癌痛大鼠的效果及机制研究目的临床上常将吗啡与阿片受体激动拮抗剂联合应用于疼痛治疗,且效果较好,但理论上二者联合应用仍存在争议,本研究
绩效审计是指由国家审计机关对政府及其各隶属部门的经济活动的经济性、效率性、效果性(即“3E”,Economy、Efficiency、Effectiveness)及资金使用效益进行的审计。在这里,“
近年来国内多处水域发现抗生素踪迹,地表水甚至地下水中都已检测到抗生素的存在,对人类健康造成威胁。人工湿地作为污水处理的新型技术得到广泛运用,对人工湿地基质材料的研
生活方式变革后,现代人的体育锻炼机会减少,若不从小学阶段体育教学入手着力培养学生的终身体育意识,“身残志坚”将可能成为未来社会建设者必备的品质。而要想培养小学生的