论文部分内容阅读
聚类分析技术是心理与教育领域常用的对被试进行分类的统计手段,通过聚类分析技术可以发现具有不同特征的被试。传统的聚类分析如K-means方法和最近兴起的基于模型的聚类分析,如潜在类别模型和混合Rasch模型,均在教育和心理学领域受到了较多的关注。然而,目前还缺少在二分外显变量的情境下对不同聚类方法的聚类效果的比较。本研究目的在于比较K-means方法、潜在类别模型和混合Rasch模型在二分外显变量的情况下的聚类效果,包括模拟研究和实证研究两个部分。 在模拟研究中,本研究控制样本量、题目数量、潜在类别数量和潜类别人数比例等条件,分别使用潜在类别模型和混合Rasch模型生成所需数据,在假设潜在类别数量已知的情况下,使用三种聚类方法对生成的数据进行分析,以分类一致性指标(Adjusted RandomIndex,ARI)作为评价分类效果的标准,探讨影响聚类分析的因素及三种聚类方法在不同条件下的分类效果。结果表明:(1)潜在类别数量、题目数量和变量间相关对三种聚类方法的分类准确性影响较大,较多的潜在类别数量、较小的题目数量或变量间的相关关系均会使聚类分析的准确性下降。样本量和样本平衡尽管也会影响聚类方法的分类准确性,但是作用较小。不同因素对聚类分析的准确性的交互作用存在。(2)当潜在类别数量为2且样本平衡时,三种方法表现相当;样本不平衡时,混合Rasch模型最好,K-means方法最差。当潜在类别数量为4且样本平衡时,K-means方法与潜在类别模型方法相当,混合Rasch模型最差;样本不平衡时,K-means方法依然表现最好。 在实证研究中,研究者对1560名考生在网络成瘾测验上的作答进行聚类分析。结果发现基于同一批实证数据的情况下,潜在类别模型、混合Rasch模型和K-means方法分类也不完全一致;潜在类别模型和混合Rasch模型具有较高的分类一致性,而它们与K-means方法具有相对较低的分类一致性,这一实证研究结果表明模拟研究的结论具有较好的外推力。