零频数过多资料的统计学模型应用研究

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:hqchunyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:在医学研究中,经常遇到零频数过多的计数资料,如亚健康症状数。此种数据表现为离散型资料,其观察值为零或正整数,但是近半数甚至于大多数观察值为零,过多零频数的存在使得数据过度离散。传统的负二项回归和Poisson回归模型的拟合效果将受到影响,在模型拟合过程中,如果忽略这些零的存在,对参数的估计就会产生偏差。在这种情况下可把原始数据集看成是由一个全零数据集和一个服从Poisson分布或负二项分布的数据集混合而成,这就是零频数过多的回归模型,简称ZI模型。已报道的关于ZI模型应用的研究都是通过一个实际样本探讨ZI模型的应用效果,并与传统的Poisson回归和负二项回归模型进行比较,没有一项研究能够在各种零频数比例下验证ZI模型的拟合优度,探讨零频数比例多大时则过多,及在何种零频数比例下数据分布将不满足传统的Poisson回归或负二项回归模型的要求。本研究利用bootstrap方法在实例样本中通过随机模拟获取各种比例零频数的模拟样本,得到各种零频数比例的随机样本,探讨各种比例零频数时的最优拟合模型,解决零频数比例何时过大而必须采用ZI模型的问题;同时研究ZI模型在亚健康症状数资料中的适用性。研究方法ZI模型产生的前提正是可以同时解决资料的过度离散和零频数过多的问题。ZI模型可在医学领域中用于估计一个两阶段的疾病进程,其基本思想是把零事件的发生看做两部分,模型也包括两部分,第一部分来源于那些从未可能发生事件的个体或处于低风险个体,模型参数的解释和一般的logistic回归相似,说明协变量是否影响事件发生;第二部分来源于在Poisson分布或负二项分布条件下没有发生事件的个体或处于高风险个体,模型参数的解释与传统的Poisson回归或负二项回归一样,说明协变量影响事件发生多少的问题。本研究以亚健康症状数为响应变量,以性别、年龄、婚姻状况、民族、职业、吸烟、饮酒、血压高和肥胖为解释变量,用SAS9.2软件分别对各种零频数比例的bootstrap样本拟合Poisson回归、负二项回归、ZI模型和序数回归模型。用α系数、O检验和Vuong检验等进行数据的过度离散性和零频数是否过多的判断,并用回归模型对各种计数值的预测概率及似然比、AIC、BIC等指标对各种模型的拟合优度进行判定,以选择最优的模型。研究结果在样本量为11227的实际样本中,43.3%的受试者没有阳性的亚健康症状,离散系数α为1.013,95%CI为0.965-1.063,可以认为α显著大于0,对亚健康症状数进行过度离散性检验,x=2.90,s=3.85,离散统计量O=308.011,P<0.0001,方差显著大于均数,表明存在过度离散,亚健康症状数不符合Poisson分布。Vuong检验的统计量Z=31.93,P<0.0001,表明此数据的零频数过多,远远超出了传统负二项分布的估计范围,用负二项分布也不能很好的拟合数据特征。ZINB模型的Log likelihood最大(-22170.741),AIC(44363.482)和BIC(44444.069)最小,且ZINB模型对各种频数的预测概率与实测频率的吻合程度最高。从各拟合优度指标和预测概率而言,ZINB模型是进行亚健康症状数影响因素分析的最佳模型。在ZINB模型中,从Logit部分可见,年龄越高(β=-0.436,P<0.001)、民族为朝鲜族(p=-2.253,P<0.001)是出现亚健康症状的危险因素,而单身(p=2.175,P=0.006)和从事脑力劳动(β=1.527,P<0.001)的受试者不容易受到亚健康症状的危害。而由负二项部分发现,年龄、性别、脑力劳动、饮酒和婚姻状况是亚健康症状数多少的影响因素,即在处于亚健康状态的受试者中,女性(p=0.280,P<0.001)、饮酒者(p=0.098,P=0.008)、离异或丧偶的受试者(p=0.200,P<0.001),具有更多的亚健康症状;而年龄越大(p=-0.003,P=0.009)和从事脑力劳动(p=-0.076,P=0.012)的受试者可能具有较少的亚健康症状。各种零频数比例的bootstrap抽样模拟样本中,当零频数比例小于15%时,ZINB模型的拟合效果与传统的负二项回归模型相当,ZINB模型未体现出拟合效果和结果解释上的优势;而当零频数比例在20%以上时,ZINB模型的拟合效果明显优于传统的负二项回归模型,此时综合考虑拟合优度、预测概率、结果解释的合理性方面,ZINB模型是最佳模型,特别是当零频数比例达到70%以上时,ZINB模型对响应变量的各观察值的预测概率与实际频率几乎完全一致。当零频数比例达到或超过85%时,序数回归模型的似然比和AIC等指标也较为理想,但从模型对各种频数的预测效果而言,不管零频数的比例大小如何,序数回归模型的预测效果与实测频率均相差较大,序数模型不是进行此类计数资料分析的最佳选择。在任何零频数比例时,由于本样本数据过度离散,Poisson回归的拟合效果都是最差的,ZIP模型的拟合效果也不好。结论当零频数的比例达到20%以上时,各种模型预测概率、拟合优度检验、过度离散性检验和零频数过多检验结果均显示ZINB模型是研究亚健康症状数资料的最优模型,为ZINB模型在零频数过多的计数资料中的应用提供了理论上的依据。
其他文献
《中共杭州市委党校学报》是由中共杭州市委党校、杭州行政学院主办的综合性社会科学理论刊物,中国人文社会科学引文数据库来源期刊。本刊以马克思主义、毛泽东思想、邓小平理
目的探讨内侧撑开胫骨高位截骨结合Tomofix内固定治疗膝内翻畸形的手术方法及短期疗效。方法 2009年10月至2010年8月,采用内侧撑开胫骨高位截骨(open wedge high tibial oste
随着改革开放的不断深入,社会保险问题已经越来越受到我国政府和各阶层民众的重视。怎样才能使社会保险与商业性保险既相互补充又共同发展,在其他国家已经积累了丰富的经验。
构造法是指当解决某些数学问题使用通常方法按照定向思维难以解决问题时,应根据题设条件和结论的特征、性质,从新的角度,用新的观点去观察、分析、理解对象,牢牢抓住反映问题
大学生就业难现在已成为突出的社会难题,根据北大精神,就业为民生之本,创业为就业之源。2008年江苏省对省内大学提出创业教育的新要求,与此同时省内85%高校开设创业教育课程,20%的创
欧美国家对残雪作品的翻译始于20世纪80年代末,由于其作品独特的创作风格和精神风貌,受到西方读者的高度关注。西方对残雪作品的译介持续至今并达到高潮,呈现出译介数量多、
为了评价某火力发电厂锅炉烟气脱硫系统职业病危害因素及防护措施效果。采用职业卫生学调查、现场检测的方法,分析生产过程中存在的职业病危害因素。结果显示,工作场所中存在
<正>替拉扎明(tirapazamine,TPZ)化学名称:3-氨基-1,2,4苯并三唑-1,4-二氮氧化物(3-Amino-1,2,4-benzotriazine-1,4-dioxide),又名SR4233,是一种新
通过对"永林公司"不同森林经营模式下水源涵养功能的比较研究,结果表明:不同经营模式林冠层的水源涵养能力都大于灌草层,部分枯枝落叶层大于林冠层。其中,林冠层持水量最大的