复杂随机抽样数据的多重线性与多重logistic回归分析方法及其应用

被引量 : 5次 | 上传用户:fanrend
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】针对目前大部分研究者在进行复杂随机抽样调查资料的回归分析时常采用基于单纯随机抽样(即不考虑抽样权重)的一般多重线性回归分析以及多重l o g i s t i c回归分析的现状,通过比较不考虑权重、仅考虑抽样权重、仅考虑观测权重和考虑综合权重的四种不同建模策略,发现在原理以及模拟研究结果上彼此的不同,进而引起研究者的重视。同时,创造性地提出“观测权重”与“综合权重”的概念并阐述其计算原理,模拟并探讨其在复杂随机抽样调查资料多重线性与多重l o g i s t i c回归分析建模中的作用。【内容】首先大量搜集、阅读、归纳和整理文献,对复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析的原理进行研究。而后借助综合评价中的权重系数的思想,在回归分析中,定义了反映各个体或观测对总体的重要性的量─观测权重。从而构建并完善观测权重及其衍生的综合权重的概念并阐述其计算原理。基于蒙特卡洛随机模拟思想,假设所得到的完整资料为抽样总体,在抽样总体中进行不同抽样率下的分层随机抽样。而后按考虑抽样权重、观测权重、综合权重与未考虑权重的分析策略(以下简称四种分析策略)对抽样资料进行多重线性与多重l o g i s t i c回归建模,比较并探讨纳入不同权重时模型拟合结果的准确性、稳健性以及灵敏性。而后将资料视为抽样样本,赋予每个观测不同抽样率下的抽样权重,在不同的分析策略下对上述所得结果进行验证分析。【方法】(1)通过大量搜集、阅读、归纳和整理文献,对复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析的原理进行研究。(2)对于观测权重和综合权重的构建,通过大量搜集、阅读、学习、归纳和整理相关文献,所用的数据库包括P u b m e d、E m b a s e、中国知网、万方、维普等,运用现有的统计学知识和创新性思维,提出观测权重和综合权重的理论构想,在导师的指导下,并与研究室师生进行反复讨论和多次修改,使其进一步完善、合理。(3)模拟研究:采用美国营养与健康研究中心在2 0 0 9~2 0 1 3年期间调查获得的两组数据(有效样本含量N1=6 7 5 6,N2=5 4 4 0),按照年龄段(1 0岁)分层。假定N=6 7 5 6/5 4 4 0例的调查资料就是一个“抽样总体”,基于此总体,构建分层随机抽样率分别为5%~9 5%(1 0%步长)的分层随机抽样数据集,而后分别运用上述的四种分析策略进行多重线性回归分析与多重l o g i s t i c回归分析,并将分析结果进行比较,考察在不同分析策略与不同抽样率下模型拟合的效果。而后,假设该数据(N=6 7 5 6/5 4 4 0)为在分层随机抽样率分别为5%~9 5%(1 0%步长)的分层随机抽样下得到的数据集(即每次都是样本含量为n=6 7 5 6/5 4 4 0例的一个样本),运用前述的四种分析策略对该固定样本进行多重线性与多重l o g i s t i c回归分析,并将分析结果进行比较,对上述所得结果进行验证。【结果】(1)对复杂随机抽样调查所得的数据进行多重线性与多重l o g i s t i c回归分析的模型构建和参数估计方法进行了归纳和总结,比较了最小二乘法、加权最小二乘法、极大似然法、拟极大似然法的数学原理及需满足的条件。从原理上得知复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析中应当考虑其研究所采用的抽样方法,并依据抽样方法选择适当的参数估计方法,否则会产生较大的偏差。(2)澄清了“权重”与“抽样权重”中一些模糊概念,提出并构建了“观测权重”以及“综合权重”的新概念及其确定方法。为接下来的研究提供了理论支持,也为未来关于“权重”的研究提供了一定的参考。(3)通过对所得到的数据(N1=6 7 5 6)进行抽样调查数据的多重线性回归分析的模拟研究,得到以下结果:在不考虑权重的分析策略下建模,回归模型所纳入的自变量数目在不同抽样率下波动较大且比应当纳入模型的数目要少,同时其标准误也最大。检验模型拟合的统计量均方根误差较大,决定系数较小,其模型拟合结果的准确性、精确性以及灵敏性较差;在仅考虑抽样权重的分析策略下建模,回归模型在不同抽样率下纳入自变量数目波动较大,当抽样率达到8 5%时才达到稳定。同时其模型拟合的均方根误差和决定系数与未考虑权重的分析策略的一样大,因此与不考虑任何权重的分析策略相比,仅考虑抽样权重的分析策略的准确性、稳健性以及灵敏性有所提高,但还未达到研究者预期的目标;在仅考虑观测权重的分析策略下建模,当抽样率达到2 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型拟合的均方根误差与前两种分析策略相比大大减小,决定系数大大增加到接近1,因此其模型拟合结果的准确性、精确性以及灵敏性大大提高。但是其建模原理是建立在单纯随机抽样的前提下,因此笔者并不推荐此法;在考虑综合权重的分析策略下建模,当抽样率达到3 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型拟合的均方根误差最小,决定系数接近1,因此其模型拟合结果的准确性、精确性以及灵敏性最高。(4)通过对所得到的完整数据(N2=5 4 4 0)进行抽样调查数据的多重l o g i s t i c回归分析的模拟研究,得到以下结果:在不考虑权重的分析策略下建模,回归模型所纳入的自变量数目在不同抽样率下波动较大,当达到8 5%抽样率时才达到稳定。同时评价其模型拟合的统计量A I C值、S C值较大,决定系数较小,其模型拟合的准确性、稳健性以及灵敏性较差;在仅考虑抽样权重的分析策略下建模,回归模型在不同抽样率下纳入自变量数目波动较大,当达到6 5%抽样率时达到稳定。同时其模型对应的A I C值、S C值较大,决定系数较小,其模型拟合的准确性、稳健性以及灵敏性较不考虑权重时有所提高,但未达到研究者预期的目标;在仅考虑观测权重的分析策略下建模,当抽样率达到3 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型对应的A I C值、S C值与前两种分析策略相比大大减小,决定系数大大增加到接近1,因此其模型拟合结果的准确性精确性以及灵敏性大大提高,但是其建模原理是建立在单纯随机抽样的前提下,因此笔者并不推荐此法;在考虑综合权重的分析策略下建模,当抽样率达到2 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型对应的A I C值、S C值最小,决定系数接近1,因此其模型拟合结果的准确性、精确性以及灵敏性最高。【结论】在进行复杂随机抽样调查资料的多重线性回归与多重l o g i s t i c回归分析时,研究者若将综合权重纳入到分析中(即同时考虑抽样权重与观测权重),则结果将会更加准确、稳定且灵敏。
其他文献
牙鲆(Paralichthys olivaceus),是我国最有经济价值的海水养殖种类之一。牙鲆病害问题日益突出,缺乏优良抗病品种,制约了产业的可持续发展。牙鲆免疫系统及病原防御机制研究
司法实践中法院对无罪判决,尤其是证据不足判无罪判决的抑制,与案外因素介入审判有关。在公检法配合大于制约的司法体制下,在公检法进行绩效考核的管理体制下,再结合独特的被
2010年8月16-20日,本刊与复旦大学新闻传播与媒介化社会研究国家哲学社会科学创新基地联合举办"突发公共事件新闻报道与大众传媒社会责任"学术研讨会,来自全国30余所高校和新
狮子山矿田是目前安徽铜陵矿集区铜金储量最大的矿田,矿田受以北北东向构造为主导,以北东向、南北向、东西向构造为基础的多重构造的复合叠加,使得整个矿田内的矿床呈“蒸笼
十八届四中全会《决定》中提到:完善惩戒妨碍司法机关依法行使职权、拒不执行生效裁判和决定、藐视法庭权威等违法犯罪行为的法律规定。法庭权威问题引发了人们的关注与思考
<正>美国能源独立美国和中国分别为世界第一和第二大经济体。从2009年开始,中国就超过美国成为了世界第一大能源消费国。2017年,中国能源消费总量为31.43亿吨油当量,对外依存
近些年来,博物馆文创产品越来越趋于消费者心中的时尚消费品,一改曾今人们对于&#39;旅游纪念品&#39;的固有印象,从实用价值、艺术价值、传统文化传播与再创等层面都不断地提
为了研究泵压力脉动数值计算中边界条件对其产生的影响,以包含密封口环间隙的核主泵全流道水力模型为研究对象,在不同时间步以及不同的边界条件下进行了数值计算.首先对核主
医联体,即区域内医疗机构联合体的简称,是指涵盖不同级别医疗卫生机构的超越级别间行政及资产所属关系的医疗机构联合。该联合的前提是所有参与的医疗机构同属卫生行政机构统
继续教育是美国规模较大、发展较快的教育.本文从培养理念、培养对象、培养形式和培养方案四个方面分析了美国继续教育培养模式的特点.美国继续教育培养模式值得我们借鉴,对