基于稳定权重目标最大似然估计模型的研究及其在真实世界研究中的应用

来源 :中国人民解放军海军军医大学 | 被引量 : 0次 | 上传用户：shall202

【摘要】

：

研究背景:随机对照试验是估计因果效应(处理效应)的金标准,它通过随机化保证了试验组间的均衡可比。近年来,真实世界研究受到研究者的广泛关注,它与随机对照试验一起为临床实

【作者】

：

韩贺东

【出处】

：

中国人民解放军海军军医大学

【发表日期】

：

2020年01期

【关键词】

：

因果推断极端权重稳定权重模型错误设定双稳健估计目标最大似然估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究背景:随机对照试验是估计因果效应(处理效应)的金标准,它通过随机化保证了试验组间的均衡可比。近年来,真实世界研究受到研究者的广泛关注,它与随机对照试验一起为临床实践提供证据参考。在真实世界研究中,组间协变量的分布通常是不均衡的,从而导致处理的分配具有某种倾向性,使得处理因素与结局的因果路径上存在混杂因素。2020年1月,国家药监局起草发布的《真实世界证据支持药物研发与审评的指导原则(试行)》中指出:因果推断方法是真实世界数据的主要分析方法。基于倾向性评分逆概率权重(inverse probability treatment weight,IPTW)的一类方法是处理效应估计的重要方法,包括逆概率加权法,加权最小二乘法(weighted least square,WLS),增广的逆概率加权法(augmented IPTW,AIPTW)和目标最大似然估计法(targeted maximum likelihood estimation,TMLE),后三者具有双稳健的性质。上述方法估计处理效应时均基于Neyman-Rubin反事实模型,需要满足若干基本假定:无未观测混杂因素、正性假定(positivity)、个体处理稳定性假设和正确设定参数模型。然而,当倾向性评分值过大或过小时,将导致极端IPTW,从而违反或接近违反正性假定(near violation of positivity)。极端IPTW的出现将直接影响估计的偏倚和方差。因此,IPTW本身是一种不稳定权重。近年来,许多研究者提出更加稳定的倾向性评分权重方式如IPTW截断权重,并将它们与IPTW一起纳入均衡权重的体系。真实世界研究中,变量间的关系错综复杂,倾向性评分(处理模型)的设定可能出现错误。一旦模型错误设定,将导致效应估计产生偏倚。同样,基于结局模型的方法如G-计算也面临着错误设定的风险。双稳健估计提供了一种补救措施。只要处理模型和结局模型其中之一设定正确,估计结果就是一致的。TMLE是一种半参数、基于最大似然思想的双稳健估计方法。通过对初始结局的“迭代更新”过程,TMLE牺牲了无关参数的偏倚和方差,使得感兴趣参数的偏倚-方差平衡达到最优。TMLE具有许多优异的性能,如替代估计量的性质使得它在数据存在离群值和稀疏值时,比其他双稳健估计更加稳健。然而,有研究者提出极端IPTW仍可能对TMLE造成较大影响,并提出通过对倾向性评分或IPTW截断来解决。但这种处理方式改变了原来的数据结构,它的有效性也值得探索。鉴于此,构造权重更加稳定的TMLE是解决极端倾向性评分的一种研究思路。进一步,评估基于稳定权重TMLE的双稳健性质具有一定的研究意义。研究目的:(1)通过模拟及实例研究构建基于重叠权重等九种不同权重形式的倾向性评分加权法(propensity score weighting,PSW)、WLS、增广的倾向性评分加权法(augmented propensity score weighting,APSW)及TMLE,并与未校正和G-计算的结果比较,在不同的接受处理的对象比例和样本量下,评估组间不同倾向性评分重叠度下各方法的估计结果,探索稳定权重TMLE法的估计性能。同时,探讨IPTW不同程度的截断水平对标准TMLE估计的影响。(2)通过模拟及实例研究构建基于九种权重的估计方法,在不同接受处理的对象比例、样本量及倾向性评分重叠度下,评估各估计方法在四种不同的模型设定情景(处理模型正确结局模型正确、处理模型错误结局模型正确、处理模型正确结局模型错误、处理模型错误结局模型错误)下的效应估计结果,探索稳定权重TMLE法的双稳健性能。研究方法:基于以上两个研究目的,采取数据模拟、模型构建、模型评价及实例应用的流程开展本课题研究。分述如下:1、稳定权重目标最大似然估计在不同倾向性评分重叠度下的表现本研究采用蒙特卡洛方法模拟观察性真实世界数据。其中,处理因素为二分类变量,结局为连续性变量。模拟实验设置两种不同接受处理的对象比例(0.4和0.1)、三组样本量(250,1000和2500)、六种组间不同倾向性评分重叠度(γ=0.3,0.5,0.8,1.0,1.5和2.0),构建基于IPTW、IPTW(1-99%)截断、IPTW(5-95%)截断、IPTW(10-90%)截断、边际概率调整的IPTW(marginal probability adjusted IPTW,MPIPTW)、标准化的IPTW(normalized IPTW,NIPTW)、压缩估计的IPTW(shrunken IPTW,SHIPTW)、重叠权重(overlap weight,OW)和匹配权重(matching weight,MW)等九种不同形式倾向性评分权重的PSW、WLS、APSW及TMLE,并与未校正和G-计算的结果比较,查看各情景下九种权重的分布情况,探索IPTW不同水平的截断对标准TMLE估计结果的影响,评估稳定权重TMLE在组间不同倾向性评分重叠度下的估计效果。APSW及TMLE的标准误(standard error,SE)由bootstrap重采样法获得。采用权重、重叠系数(overlapping coefficient,OVL)、加权平均绝对标准化均值差异(weighted average absolute standardized mean difference,WAASMD)、绝对偏倚(absolute bias)、相对偏倚(relative bias)、均方根误差(root mean squared error,RMSE)、模型输出的SE、经验标准差(standard deviation,SD)和95%置信区间(confidence interval,CI)覆盖率等指标对估计结果进行评价。最后基于住院的真实世界数据,比较机器人辅助的前列腺癌根治术(RALRP)和开放的前列腺癌根治术(ORP)之间住院时长的差异,探究稳定权重TMLE在实例数据中的适用情况。2、稳定权重目标最大似然估计双稳健性能的探索采用蒙特卡洛方法进行处理因素为二分类变量,结局为连续性变量的数据模拟。实验设置两种不同接受处理的对象比例(0.4和0.1)、三组样本量(250,1000和2500)、两种组间不同倾向性评分重叠度(γ=0.3和2.0),构建基于IPTW、IPTW(1-99%)截断、IPTW(5-95%)截断、(10-90%)截断、MPIPTW、NIPTW、SHIPTW、OW和MW等九种不同形式倾向性评分权重的PSW、WLS、APSW及TMLE,并与未校正和G-计算的结果比较,查看处理模型正确和错误设定下权重的分布情况,在处理模型正确结局模型正确(Qcgc)、处理模型错误结局模型正确(Qcgw)、处理模型正确结局模型错误(Qwgc)及处理模型错误结局模型错误(Qwgw)四种不同的模型设定情景下评估各方法的效应估计结果,探索稳定权重TMLE的双稳健性能。其中错误模型是在正确模型的基础上遗漏交互项和高次项来实现。APSW和TMLE的标准误由bootstrap重采样法获得。采用权重、OVL、WAASMD、bias、RMSE、SE、SD和95%CI覆盖率等指标对估计结果进行评价。最后基于中国老年健康影响因素跟踪调查的纵向随访数据,探索老年人(65岁及以上)日常生活活动能力受损(activities of daily living disability,ADL受损)与认知功能减退之间的关系,探究稳定权重TMLE的双稳健性能在实例数据中的体现。本研究中模拟与实例均采用数据分析软件R 3.5.2实现。研究结果:1、稳定权重目标最大似然估计在不同倾向性评分重叠度下的表现(1)模拟研究结果:1随着组间倾向性评分重叠度的减弱,OVL逐渐减小,WAASMD逐渐增大,IPTW相关权重的极值与变异度越来越大,包括TMLE在内的各估计方法在所有情景下的性能指标均逐渐变差。2与接受处理的对象比例为0.4相比,为0.1的OVL更小,WAASMD更大,更容易出现极端IPTW,所有权重的TMLE的各指标表现均更差。3当对标准TMLE的IPTW进行截断时,随着截断水平的提高,偏倚有逐渐增加的趋势,而估计的总体效果越来越好,表现为SD,SE及RMSE逐渐变小。4重叠度好时,标准TMLE具有良好的估计效果;重叠度差时,标准TMLE在所有指标上的表现均最差。所有与IPTW相关稳定权重包括IPTW(1,99),IPTW(5,95),IPTW(10,90),MPIPTW,NIPTW和SHIPTW的TMLE均表现较差。5就偏倚而言,当重叠度好时,稳定权重TMLE与标准TMLE类似,其他指标(SD,SE,RMSE及95%CI覆盖率)有较小差异;当重叠度差时(γ=1.5或2),OW和MW为基础的稳定权重TMLE拥有更小的偏倚。6 MPIPTW和NIPTW的TMLE与标准TMLE的偏倚、SD及RMSE相等,但SE和95%CI覆盖率不同。7所有重叠度下,与标准TMLE相比,稳定权重TMLE均具有更小的SD,SE,RMSE及更好的95%CI覆盖率。其中,SHIPTW,OW及MW三种稳定权重为基础TMLE的各种指标性能最好,尤其是OW和MW的TMLE。8由于结局模型的设定是正确的,G-计算在所有情景下的各评价指标均有着不错的表现。IPTW相关的PSW在重叠度差时表现很差。各种情景下,与crude、G-计算、PSW及WLS相比,各种权重的TMLE与APSW在偏倚、SD、SE、RMSE及95%CI覆盖率方面均较优。(2)实例研究结果:实例分析共纳入3,916名患者,其中接受RALRP的比例为81.13%(n=3,177),接受ORP的比例为18.87%(n=739)。组间倾向性评分重叠度较好(OVL=0.8120),倾向性评分范围为0.3928-0.9002,不存在极端倾向性评分值,各种权重值均小于10。九种权重对应的WAASMD分别为0.0041,0.0390,0.0032,0.0025,0.0041,0.0041,0.0037,0和0.0002。各方法的结果基本一致且均具有统计学显著性:RALRP组患者的住院时长比ORP组更短。与Crude相比,校正潜在混杂因素后点估计变小,SE变大。与标准TMLE相比,稳定权重TMLE的点估计及SE均较大。考虑稳定权重TMLE,基于OW和MW的TMLE的SE较小、置信区间较窄。2、稳定权重目标最大似然估计双稳健性能的探索(1)模拟研究结果:1当接受处理的对象比例为0.4时,无论重叠度好坏,处理模型错误设定都导致权重平均值变大、变异度变小、极值变小和IPTW相关权重的WAASMD变小;当接受处理的对象比例为0.1且重叠度好时,错误设定导致权重变大、极值变小、变异度变小和WAASMD变小。而重叠度差时,错误设定导致权重、极值、变异度和WAASMD均变大。2各种情景下,以处理模型为核心的方法(如PSW)在处理模型错误设定时表现较差,而以结局模型为核心的方法(如G-计算)在结局模型错误设定时表现较差。3总体而言,四种模型设定下,与标准TMLE比,八种稳定权重TMLE表现出更小的RMSE,且以OW和MW为基础的TMLE最好。4本研究发现IPTW相关权重(包括IPTW、IPTW(1,99)、IPTW(5,95)、IPTW(10,90)、MPIPTW、NIPTW和SHIPTW)的APSW和TMLE受极端权重的影响大于受模型误设的影响。5在Qwgc和Qwgw两种设定下,与标准TMLE相比,八种稳定权重TMLE的所有指标(偏倚,SE,SD,RMSE及95%CI覆盖率)均是更优的。6同一情景下,遗漏交互项和高次项的错误设定处理模型减少了极端倾向性评分。此时,稳定权重TMLE在Qcgc时的估计效果略差于在Qcgw时的估计效果。7对于APSW和TMLE而言,结局模型的正确设定比处理模型的正确设定更加重要。以OW及MW为基础的APSW在结局模型错误设定时表现很差。8当重叠度很差,尤其接受处理的对象比例为0.1时,除OW和MW为基础的方法外,其余的估计效果均不理想。特别是Qwgw时,各种权重的TMLE和APSW的结果比crude的还要差。9四种模型设定情景下,与crude、G-计算、PSW及WLS相比,各种权重的TMLE与APSW在偏倚、SD、SE、RMSE及95%CI覆盖率方面均较优。10在Qwgw设定下,无论何种情景,各种权重的TMLE在偏倚、SD、SE、RMSE及95%CI覆盖率上均比相应权重的APSW表现更好。在Qwgc设定下,当重叠度好时,各种权重的TMLE在各指标上均比相应权重的APSW表现更好;而当重叠度差时,各种权重的TMLE在各指标上均比相应权重的APSW表现更差(OW和MW除外)。(2)实例研究结果:4,956名老年人中,ADL受损的比例为12.83%(n=636)。重叠度一般(OVL=0.5955),倾向性评分值的范围为0.00473-0.80024,存在极端倾向性评分值,IPTW存在较大的权重值,最大达到了71.52。九种权重对应的WAASMD为0.0105,0.0034,0.0217,0.0606,0.0105,0.0105,0.0045,0和0.0022。与Crude相比,校正潜在混杂因素后点估计变小,SE变大。除以NIPTW为基础的TMLE外,各方法的结论基本一致且均具有统计学意义,即ADL受损老年人的认知功能下降的程度更大。IPTW相关权重TMLE的点估计相近。在稳定权重TMLE中,OW与MW为基础的TMLE的点估计和SE较小。两种结局模型设定下,G-计算的结果基本一致,说明交互项的存在对处理效应的影响较小。整体来看,TMLE的结局模型中不包含交互项的点估计和SE比包含交互项的更大。研究结论:在真实世界研究中,极端权重和模型错误设定均可能影响估计的准确性。各种权重的TMLE受极端权重的影响大于受模型错误设定的影响,且结局模型的正确设定比处理模型的正确设定更加重要。处理模型的错误设定可影响极端权重的存在,进而影响效应的估计结果。采用倾向性评分权重相关方法如TMLE估计处理效应时,应首先查看组间倾向性评分的重叠度和权重的分布情况。模拟结果显示当重叠度较好或不存在极端权重时,各种权重的TMLE均表现良好;当重叠度较差或存在较多极端权重时,对标准TMLE的IPTW进行截断可改善估计效果,以IPTW(1,99)、IPTW(5,95)、IPTW(10,90)、MPIPTW、NIPTW、SHIPTW、OW和MW为基础的稳定权重TMLE比标准TMLE拥有更小的SD,SE,RMSE及更好的95%CI覆盖率,尤其OW和MW为基础的TMLE在重叠度很差时依然有良好表现。稳定权重TMLE具有较好的双稳健性能,尤其当两个模型均设定错误时。无论模型设定是否正确,以OW和MW为基础的TMLE均表现最好。综上所述,当重叠度较差、存在较多极端权重、接受处理的对象比例较低或对模型正确设定把握不足时,为获得更准确的估计效果,推荐以OW和MW为基础的稳定权重TMLE。

其他文献

公路路基的排水设施与施工要点

公路路基的排水设施在公路建设中有着至关重要的作用,是影响公路质量的重要因素。在公路施工中,如何解决公路路基的排水设施问题,已成为现在最为紧要的问题。

期刊

排水设施公路路基排水沟安全稳定

黄庭坚诗歌的《庄子》用典——以黄诗中“庖丁解牛”寓言故事的用典为例

在黄庭坚诗中,对"庖丁解牛"这则寓言故事的用典很奇特。细分之下典故主要有五类:以刀发于硎为典故;以肯綮为主要的用典对象;以全牛为用典对象;以"庖丁提刀而立,踌躇满志"为用

期刊

庖丁解牛用典黄庭坚诗歌

山西传统民居建筑内涵探析

在我国传统建筑文化中,其中一个不可或缺的构成部分就是山西民居。因此文章从器物、制度以及文化三个层面对其形成原因进行深入分析,有利于人们了解民居文化形成和发展的过程

期刊

山西民居环境制度文化风水

大学生自杀倾向原因分析

大学生心理健康问题是高校普遍关注的问题。本文通过对某高职医学院2019级新生心理普查中有自杀倾向的大学生进行调查,对大学生自杀倾向原因进行了具体分析,发现大部分是家庭

期刊

大学生自杀原因心理健康

降压不能迷信中草药

国家疾控中心最新调查数据显示,中国成年人中高血压患病率达33.5%,估计患者数量达3.3亿人,这个数字仍在不断刷新中。广东省人民医院黎励文教授指出,高血压是可防可治的,可怕

期刊

中草药心脑血管事件广东省人民医院迷信降压数据显示疾控中心患者数量

内部需求与外部推动——中国古代江州“义门陈”家族文化形成原因探析

中国古代历史上的江州＂义门陈＂家族,是中国历史上颇具影响的大家族之一。其独特的家族文化使家族历经三百余年而不散,历受历代帝王的旌表,成为古代家族的典范。独特的家族文化

期刊

“义门陈”家族文化原因

收益凭证的定价策略研究

随着场外市场的成熟和券商专业能力的提高,越来越多的场外衍生品开始走进投资者的视线。丰富多样的衍生品一方面带来了潜在的投资机会,丰富了投资者的投资标的,另一方面也对

学位

券商场外衍生品雪球型敲入敲出产品Variance Gamma模型投资策略

超声定位辅以数字减影血管造影引导用于PICC置管困难的效果

目的观察超声辅以数字减影血管造影(DSA)在经外周静脉穿刺中心静脉置管(PICC)困难患者中的效果。方法2015年2月至2017年8月该院住院治疗的80例PICC置管困难患者,随机分为A组

期刊

超声数字减影血管造影经外周静脉穿刺中心静脉置管置管困难

“特别快车”,特别的关爱

期刊

三趟快车鲜活商品押运员货物列车铁路运输外贸部香港铁路部门港澳生猛海鲜

公路环境与排水设计

结合合肥至六安高速公路排水设计,深入分析公路环境的具体概念,阐述排水设计对公路环境的两个方面的影响,通过具体的设计,使排水设计的目的不仅体现在保护路基使用功能的层面

期刊

公路环境公路文化表观设计内涵设计

基于稳定权重目标最大似然估计模型的研究及其在真实世界研究中的应用

与本文相关的学术论文