论文部分内容阅读
【目的】探讨实际问题研究中的不完全数据聚类。【方法】利用相关变量的辅助信息,对缺失数据进行推估,确定其合理的替代值,从而构造出一个“完全”数据集。在此基础上以EM算法循环迭代,参数的估计值和缺失数据的替代值都将逐渐收敛,以相应的贝叶斯后验概率判别个体的归类,进而实现动态聚类。【结果】模拟研究表明,缺值替代法具有较好的收敛性,对有缺失的数据基本都可正确地聚类。【结论】Fisher的鸢尾花花类识别数据验证了缺值替代法的可行性,其聚类的准确性高于缺值删除法,基本接近完全数据聚类。