论文部分内容阅读
针对传统的云存储数据分段聚类方法存在运行效率较低、聚类结果不够平滑等问题,提出一种基于机器学习的云存储数据分段聚类方法。从云存储数据库中合理抽取多个小数据集,小数据集包含云存储数据库中的所有自然簇,根据相似度定义构建相似度矩阵。采用非线性核主成分算法实现对相似度矩阵中数据相似度的测度,通过相似度测度将具有相同特征的数据归为一类,采用混合高斯分布概率密度模型计算不同类别数据的后验概率,通过对概率大小的比较实现云存储数据分段聚类。实验结果证明,所提方法能够缩短聚类运行时间,将聚类变化度降低到29%,有效