论文部分内容阅读
目的在医学、社会学和心理学等领域,常需要依据某些特征将一个大的异质性群体分为多个小的同质性人群,再针对小的同质性人群实施相应的处理措施从而使处理效应最大化,这在实际应用中有着重要的意义。导致群体异质性的因素有时可直接测量,有时不可直接测量(即潜变量),而需通过测量与其相关的其他多项条目(即显变量)来间接反映,潜变量模型可以度量。本研究目的是探讨分类潜变量模型在不可见异质性群体分类中的应用情况。方法若显变量为连续型变量时,可采用潜在剖面分析对异质性群体进行分类;若显变量为分类变量时,可采用潜在类别分析;若显变量具有多维度特征时,可采用潜在类别因子模型从多个维度对异质性群体进行分类。本研究首先对潜在剖面分析、潜在类别分析和潜在类别因子模型方法的模型理论、参数估计、模型评价、后验分类和图形表达等进行了深入探讨,之后通过数据模拟和实例分析的方法,比较了连续型潜变量时潜在剖面分析和传统聚类分析对异质性群体分类的效果,以及分类显变量且存在多个维度特征时,潜在类别分析和潜在类别因子分析的适用性及分类效果。实例分析的数据分别来自广州市居民健康知识调查和社区卫生服务满意度的调查。结果潜在剖面分析和传统聚类分析的数据模拟比较结果显示,基于本研究参数设置条件下,潜在剖面分析的平均错分率比聚类分析低,当原始数据类间方差相等时,指定类间方差和类间方差不等的潜在剖面分析,错分率相当;当原始数据类间方差不等时,指定类间方差不等的潜在剖面分析,错分率低于指定类间方差相等的潜在剖面分析。实例分析结果显示潜在类别模型可将人群明确分类,而聚类分析效果不佳。潜在类别分析和潜在类别因子分析模拟比较的结果显示,在两因子两水平的理论模型抽样条件下,原始数据的两维度不相关或弱相关时,潜在类别因子分析选择理论模型作为最优模型的比例和正确分类率均高于潜在类别分析选择4类别的单因子模型;当原始数据两维度中度相关时,随着样本量的增加,选择两因子两水平且相关的潜在类别因子模型的比例逐渐增加,且正确分类率较高;当两维度高度相关时,潜在类别因子模型也倾向于选择一个因子的模型。实例分析的结果表明,潜在类别因子分析可从多个角度对异质性群体进行分类,分类结果更精确,比潜在类别因子分析提供更多的分类信息,同时还可探索因子之间的关联。结论潜在剖面分析法的分类效果优于系统聚类法,可作为解决连续型变量分类问题的一个有力工具。潜在类别分析和潜在类别因子分析都可以处理分类显变量。前者从单维度对观测分类,后者结合了因子分析的思路,可从多维度对观测分类。和潜在类别模型相比,潜在类别因子模型不仅可对异质性群体进行分类,同时可研究显变量的潜在因子结构,将具有共同特征的显变量降维成因子,因此LCFA方法同时具有因子分析和聚类分析的功能,对观测分类有更多元化的解释,比潜在类别模型提供更丰富的信息,具有更广泛的学术应用价值。