论文部分内容阅读
潜在类别分析(下简称LCA)旨在利用最少的类别潜变量去解释多个外显分类变量间复杂的关联。研究者多通过对选定的外显心理行为指标进行LCA来探测潜在的异质子群体,目前LCA逐渐被应用于社会、人格、临床、认知、测量等心理学领域。实际应用中,研究者在数据收集过程中难免会遇到缺失数据。缺失数据处理方法的选择影响处理的精确性和研究结果的有效性。缺失数据处理方法的有效性建立在缺失机制的基础上,目前LCA中常用的处理方法有基于完全随机缺失的列删除法(LD),及被研究者推崇的基于随机缺失的全息极大似然估计(FIML)、多重插补(MI)。 LCA中缺失数据处理方法的理论研究少且不全面。大部分LCA软件能实现FIML、MI法,这使得它们逐渐被研究者使用,但FIML、MI法有效性的研究都集中在定距、定比数据领域。具体到LCA中,缺失数据处理方法的研究停留在对某一种方法(如MI法)研究层面上,缺乏方法间的比较。虽然研究已证实LD法会造成估计偏差和统计功效的损失,但它因操作简单在LCA中仍被广泛应用。在处理LCA中的缺失数据时,LD与被研究者所推崇的FIML、MI法间的具体差距也有待研究。 为回答这个问题,本文在3种不同缺失机制的基础下,采用3(样本量)×3(缺失率)×4(缺失数据处理方法)的实验设计进行模拟研究,探讨LD、FIML、两种MI法(logistic回归多重插补MI-log和鉴别函数多重插补MI-df)在9种样本量、缺失率的组合下对LCA中缺失数据的处理效果,并与无缺失的情况作比较。以1个潜在类别概率、8个条件概率的估计偏差、绝对偏差和均方根误差为对比指标,对这3个指标进行描述统计分析,并对绝对偏差进行方差分析探讨4种方法的差异性。通过对比初步获得以下2个结果: (1)在3种缺失机制下,样本量、缺失率、条件概率的区分度、类别大小和变量的有无缺失对缺失数据处理方法的处理效果都有一定影响。4种方法产生的绝对偏差和均方根误差随样本量增大而逐渐减小,随缺失率的增大有变大的趋势。4种方法在低区分度的外显变量条件概率的绝对偏差、均方根误差稍大于高区分度的,在小类别条件概率的绝对偏差、均方根误差大于大类别的。在完全随机缺失和随机缺失下,这4种方法在有缺失变量和无缺失变量的条件概率的绝对偏差和均方根误差相近,而在非随机缺失下,有缺失变量的条件概率的绝对偏差和均方根误差稍大于无缺失变量。 (2)在3种缺失机制下,在9种样本量、缺失率的组合中,LD法的精确度最低,不推荐使用。在完全随机缺失和随机缺失下,FIML、MI-log、 MI-df的表现相当,与无缺失的情况接近。在非随机缺失情况下,FIML法的表现稍好于MI-log、MI-df。