论文部分内容阅读
研究背景:
自从二十世纪八十年代起,循证医学迅速发展,大规模临床研究逐年增多,这些研究一般要求研究期间动态观察受试者的多项生理指标或疗效相关指标。对每个受试者的某项指标在试验不同时期进行多次观察所获得的资料称为重复测量资料,这些重复测量资料一般都不满足数据独立的要求,资料的内部存在相关性,存在缺失数据等,有其自身特有的特点。以往的统计分析方法存在着许多的问题,由于测量值在不同时间点上存在着自相关性,而单因素方差分析、裂区设计方差分析、曲线拟合等方法仅使用于独立性数据,所以均不能很好的进行分析;另外在医学研究中,往往需要测量不同的反应变量,需要研究不同反应变量之间的相互关系及变化趋势,因为这些反应变量之间并非相互独立,而是也具有相关性,例如舒张压与收缩压、呼吸与心率等,有些文献中往往将两个以上的反应变量分裂开来,分别进行单变量重复测量资料或常规的单变量分析,这些传统方法往往是不准确的。虽然多变量方差分析可以分析多个反应变量之间的关系,但只是分析变量的整体情况,并没考虑各反应变量随时间变化的相互关系,而且它对数据的完整性要求严格,不存在缺失数据,若存在缺失,可能导致偏倚,从而丢失了大量信息。本文针对以上存在的问题,有必要对多变量重复测量资料的统计分析方法进行进一步的探讨。
材料和方法:
材料:本次研究的实例是从广东省某医院进行某药物的纵向研究中,选取的两份数据,对病人的测量时间点均为4个,分别为患者用药后1周、2周、3周、4周的测量数值,其中实例1为完整数据,不存在缺失数据,指标为抑郁积分和焦虑积分,实例2为含约10%的随机缺失数据,指标为心率与呼吸。
实例分析:
传统方法:采用SAS程序对实例1和实例2进行多变量方差分析,分析指标随时间变化的趋势。
新的方法:采用SAS程序中的Proc Mixed和Proc Calis模块对数据进行多变量多水平模型和多变量潜在生长曲线模型分析,比较新的方法在处理完整数据和非平衡数据的时候,比传统方法所具有的优势,以便于在医学中处理多反应变量重复测量数据提供方法学参考。
实例模拟:
用SAS程序从总样本含量为240,且多个反应变量服从多变量正态分布的原始数据中随机抽取样本量分别为30、40、60与100的4份样本,对抽取的数据采用SAS程序中的Proc Mixed过程进行多变量多水平模型的拟合,比较不同样本下,多变量多水平模型参数估计的稳健性。
结果与分析:
1、传统方法与新的方法在处理含多反应变量重复测量资料上的比较:
当数据符合传统方法使用条件的时候,新的方法估计结果与传统方法估计结果一致,但比传统方法丰富,不仅得到传统方法估计的结果,而且可以提供参数的随机效应及不同个体间存在差异的原因和各个指标之间随时间变化的联合规律。
当数据为随机缺失数据的时候,新方法估计的结果要比传统方法准确,其估计参数标准误明显低于传统方法估计参数标准误,但同时多变量多水平模型估计参数标准误又低于多变量潜在生长曲线模型估计参数标准误。
2、实例模拟实验:当n=30时:其固定参数估计值与总体参数相差很小,当n=60时:其95%置信区间已包含了总体参数,n=100时,已接近于总体参数。模型的随机效应与样本量的关系不太稳定,但当样本为100时,其估计值的95%置信区间已包含总体参数,且模型估计参数的误差随着样本量的增加,呈递减趋势。
讨论:
本文系统的阐述了多变量方差分析模型、多变量多水平模型及多变量潜在生长曲线模型在处理含多个反应变量重复测量资料中的应用,实践发现,各有优缺点。传统方法限制条件较多,结果只描述总体的平均水平,但运算简单,易于理解;新的方法限制较少,结果丰富,不仅提供参数固定效应,而且提供随机效应。一般来说,若数据符合传统方法的使用条件,且研究目的只是为了了解总体的平均水平,可以考虑多变量方差分析;若数据属于非平衡数据,如存在缺失数据,测量次数或间隔不等等,且研究目的不仅想了解总体平均趋势等固定效应,而且更想挖掘数据中的更多信息,建议采用多水平模型或潜在生长曲线模型,所以,在实际应用中,应根据数据特征和研究目的来选择最优模型。
通过实例模拟实验发现:多水平模型处理小样本数据也可以得到有效的固定参数估计值,当样本量为100时,模型可得到有效的随机效应值。这为医学中处理含多个应变量重复测量资料提供了有效的统计分析方法。