论文部分内容阅读
随着人工智能领域的不断发展,聚类分析的应用越来越广泛,其主要功能是对数据进行合理地归类,进而将数据分类到不同的簇。高斯混合模型(Gaussian mixture model,GMM)通过学习出一些概率密度函数的方式,将每个样本数据点被划分到各个簇的可能性通过概率的方式体现,这种聚类方式称为软聚类。GMM主要应用于智能交通控制系统、运动目标检测、图像识别、辅助驾驶系统等领域。GMM通过对样本的概率密度分布进行估计,同时使用期望最大化算法(Expectation Maximization,EM)进行训练。但高斯混合模型的EM算法仍存在着算法本身的不足,严重影响了聚类的质量。本文针对高斯混合模型的EM算法当前主要两点不足,即数据初始化敏感问题和局部收敛问题展开分析并提出相应的改进方法。首先,针对高斯混合模型对数据初始值敏感的问题,本文采用层次聚类算法,对高斯混合模型的参数进行预处理。其次,针对高斯混合模型的EM算法对混合模型参数进行估计时,得到的估计参数很大概率上为局部最优解,影响了高斯混合模型最终的聚类结果。本文利用近似骨架理论弥补其局部收敛的不足。近似骨架可以捕获多个局部最优解,通过将近似骨架运用于聚类算法的设计中,求解出全局最优解,从而避免了GMM处理大批量数据集时产生局部收敛问题,得到的估计参数将最为拟合样本数据集的分布情况。最后,本文将基于高斯混合模型的EM算法优化后的聚类算法投入到空间索引的具体应用中。而空间索引技术的应用日益广泛,R*-树作为其重要的一种空间索引结构,仍存在最小外包矩形重叠的缺陷。本文利用优化后的高斯混合模型聚类算法对R*-tree进行重新构建,有效地减少了最小外包矩形的重叠率,加强了属性之间的相似性,减少了查询到目标对象的路径数目,同时缩短了搜索时间,提高了空间索引效率。