论文部分内容阅读
混合潜变量模型(Structural equation mixture modeling, SEMM)是一种用于处理同时包含分类潜变量和连续潜变量的数据而形成的理论体系。SEMM作为第二代结构方程模型,它综合了因子分析、潜在类别分析和潜在剖面分析的思想,形成了自身独特的优势,其目的是为潜变量的分析提供一种新的思路和方法。它的提出不仅弥补了结构方程模型仅能处理连续潜变量和潜在类别分析仅能处理分类潜变量的不足,也为医学、社会、心理等领域的研究者面对复杂数据时提供了一种新的思路。混合潜变量的这些优点正是为了适应现代医学发展中不断出现的复杂数据而出现的一种新的统计方法。因此,在医学研究中引入SEMM具有重要的现实意义。本文系统的介绍了混合潜变量模型的有关理论,包括子模型的相关理论知识以及混合潜变量模型的构建、参数估计及模型的评价。模型参数估计介绍了常规的最大似然估计法(ML)和迭代最大似然估计(EM),其中EM算法是一种求解参数似然估计的迭代算法,是一种非常流行的极大似然估计方法,常用于处理存在缺失情况的数据。模型的评价指标包括AIC(Akaike information criterion)评分、BIC(Bayesian information criterion)评分、CAIC(consistent Akaike information criterion)及ICL-BIC(integrated completed likelihoodcriterion with BIC)等。在理论基础之上,本文分别对因子分析混合模型和结构方程混合模型两类模拟数据进行了分析说明。实例部分采用混合潜变量模型对实测SNPs数据进行了分析。实例数据是由GAW17提供的,包含697个个体的22条常染色体的上万个SNP和根据这些SNP所模拟的697个个体的性状特点(3个定量性状和1个定性性状)。本研究挑选了1号染色体上的4个SNPs和3个定量性状作为研究变量,分别进行潜在类别分析和混合结构方程模型分析。分析结果显示:根据4个SNPS数据,人群被分为3个潜在类别,各类别的概率分别为0.53,0.34,0.13。潜在类别1、2中Q的因子均值分别为-4.029和-2.052(潜在类别3的因子均值Q设为0)。可知潜在类别1、2因子均值均低于潜在类别3(P<0.001)。本文的讨论部分对本次研究的意义做了简单说明,并对结构方程混合模型的模型构建、参数估计、模型评价等各个环节进行了探讨,另外,还对本次研究的优缺点及未来展望进行了说明。