论文部分内容阅读
【目的】针对目前大部分研究者在进行复杂随机抽样调查资料的回归分析时常采用基于单纯随机抽样(即不考虑抽样权重)的一般多重线性回归分析以及多重l o g i s t i c回归分析的现状,通过比较不考虑权重、仅考虑抽样权重、仅考虑观测权重和考虑综合权重的四种不同建模策略,发现在原理以及模拟研究结果上彼此的不同,进而引起研究者的重视。同时,创造性地提出“观测权重”与“综合权重”的概念并阐述其计算原理,模拟并探讨其在复杂随机抽样调查资料多重线性与多重l o g i s t i c回归分析建模中的作用。【内容】首先大量搜集、阅读、归纳和整理文献,对复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析的原理进行研究。而后借助综合评价中的权重系数的思想,在回归分析中,定义了反映各个体或观测对总体的重要性的量─观测权重。从而构建并完善观测权重及其衍生的综合权重的概念并阐述其计算原理。基于蒙特卡洛随机模拟思想,假设所得到的完整资料为抽样总体,在抽样总体中进行不同抽样率下的分层随机抽样。而后按考虑抽样权重、观测权重、综合权重与未考虑权重的分析策略(以下简称四种分析策略)对抽样资料进行多重线性与多重l o g i s t i c回归建模,比较并探讨纳入不同权重时模型拟合结果的准确性、稳健性以及灵敏性。而后将资料视为抽样样本,赋予每个观测不同抽样率下的抽样权重,在不同的分析策略下对上述所得结果进行验证分析。【方法】(1)通过大量搜集、阅读、归纳和整理文献,对复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析的原理进行研究。(2)对于观测权重和综合权重的构建,通过大量搜集、阅读、学习、归纳和整理相关文献,所用的数据库包括P u b m e d、E m b a s e、中国知网、万方、维普等,运用现有的统计学知识和创新性思维,提出观测权重和综合权重的理论构想,在导师的指导下,并与研究室师生进行反复讨论和多次修改,使其进一步完善、合理。(3)模拟研究:采用美国营养与健康研究中心在2 0 0 9~2 0 1 3年期间调查获得的两组数据(有效样本含量N1=6 7 5 6,N2=5 4 4 0),按照年龄段(1 0岁)分层。假定N=6 7 5 6/5 4 4 0例的调查资料就是一个“抽样总体”,基于此总体,构建分层随机抽样率分别为5%~9 5%(1 0%步长)的分层随机抽样数据集,而后分别运用上述的四种分析策略进行多重线性回归分析与多重l o g i s t i c回归分析,并将分析结果进行比较,考察在不同分析策略与不同抽样率下模型拟合的效果。而后,假设该数据(N=6 7 5 6/5 4 4 0)为在分层随机抽样率分别为5%~9 5%(1 0%步长)的分层随机抽样下得到的数据集(即每次都是样本含量为n=6 7 5 6/5 4 4 0例的一个样本),运用前述的四种分析策略对该固定样本进行多重线性与多重l o g i s t i c回归分析,并将分析结果进行比较,对上述所得结果进行验证。【结果】(1)对复杂随机抽样调查所得的数据进行多重线性与多重l o g i s t i c回归分析的模型构建和参数估计方法进行了归纳和总结,比较了最小二乘法、加权最小二乘法、极大似然法、拟极大似然法的数学原理及需满足的条件。从原理上得知复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析中应当考虑其研究所采用的抽样方法,并依据抽样方法选择适当的参数估计方法,否则会产生较大的偏差。(2)澄清了“权重”与“抽样权重”中一些模糊概念,提出并构建了“观测权重”以及“综合权重”的新概念及其确定方法。为接下来的研究提供了理论支持,也为未来关于“权重”的研究提供了一定的参考。(3)通过对所得到的数据(N1=6 7 5 6)进行抽样调查数据的多重线性回归分析的模拟研究,得到以下结果:在不考虑权重的分析策略下建模,回归模型所纳入的自变量数目在不同抽样率下波动较大且比应当纳入模型的数目要少,同时其标准误也最大。检验模型拟合的统计量均方根误差较大,决定系数较小,其模型拟合结果的准确性、精确性以及灵敏性较差;在仅考虑抽样权重的分析策略下建模,回归模型在不同抽样率下纳入自变量数目波动较大,当抽样率达到8 5%时才达到稳定。同时其模型拟合的均方根误差和决定系数与未考虑权重的分析策略的一样大,因此与不考虑任何权重的分析策略相比,仅考虑抽样权重的分析策略的准确性、稳健性以及灵敏性有所提高,但还未达到研究者预期的目标;在仅考虑观测权重的分析策略下建模,当抽样率达到2 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型拟合的均方根误差与前两种分析策略相比大大减小,决定系数大大增加到接近1,因此其模型拟合结果的准确性、精确性以及灵敏性大大提高。但是其建模原理是建立在单纯随机抽样的前提下,因此笔者并不推荐此法;在考虑综合权重的分析策略下建模,当抽样率达到3 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型拟合的均方根误差最小,决定系数接近1,因此其模型拟合结果的准确性、精确性以及灵敏性最高。(4)通过对所得到的完整数据(N2=5 4 4 0)进行抽样调查数据的多重l o g i s t i c回归分析的模拟研究,得到以下结果:在不考虑权重的分析策略下建模,回归模型所纳入的自变量数目在不同抽样率下波动较大,当达到8 5%抽样率时才达到稳定。同时评价其模型拟合的统计量A I C值、S C值较大,决定系数较小,其模型拟合的准确性、稳健性以及灵敏性较差;在仅考虑抽样权重的分析策略下建模,回归模型在不同抽样率下纳入自变量数目波动较大,当达到6 5%抽样率时达到稳定。同时其模型对应的A I C值、S C值较大,决定系数较小,其模型拟合的准确性、稳健性以及灵敏性较不考虑权重时有所提高,但未达到研究者预期的目标;在仅考虑观测权重的分析策略下建模,当抽样率达到3 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型对应的A I C值、S C值与前两种分析策略相比大大减小,决定系数大大增加到接近1,因此其模型拟合结果的准确性精确性以及灵敏性大大提高,但是其建模原理是建立在单纯随机抽样的前提下,因此笔者并不推荐此法;在考虑综合权重的分析策略下建模,当抽样率达到2 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型对应的A I C值、S C值最小,决定系数接近1,因此其模型拟合结果的准确性、精确性以及灵敏性最高。【结论】在进行复杂随机抽样调查资料的多重线性回归与多重l o g i s t i c回归分析时,研究者若将综合权重纳入到分析中(即同时考虑抽样权重与观测权重),则结果将会更加准确、稳定且灵敏。