论文部分内容阅读
传统聚类分类算法需要待处理的数据是确定的。然而,现实应用中由于设备测量误差、网络传输干扰、用户隐私保护等原因,获得的数据普遍存在不确定性。由于不确定性的引入,传统聚类分类算法无法对不确定数据直接进行处理,难以满足现实应用要求。因此,针对不确定数据设计专门的聚类分类算法显得尤为重要。本文围绕不确定数据聚类分类问题展开研究,旨在为不确定数据提供有效的聚类分类算法。主要贡献如下:
(1)基于自适应混合距离测度的不确定数据聚类。针对不确定数据聚类中几何距离测度不能识别位置严重重叠且概率分布不同的不确定数据,概率分布距离测度不能识别不同对完全分离的不确定数据的问题,本文提出一种自适应的混合距离测度。通过同时考虑几何距离和概率分布距离,并根据数据集的位置重叠信息自适应地调节不同距离测度的重要性,该距离测度可以避免现有距离测度的问题,提升不确定数据的聚类效果。
(2)基于密度及层次密度的不确定数据聚类。针对基于密度及层次密度的不确定数据聚类中不确定信息丢失,计算复杂度高,固定概率阈值的问题,本文提出新的基于密度及层次密度的不确定数据聚类算法。通过使用精确的方法计算不确定数据点之间距离小于等于某一阈值的概率,引入概率邻域,支持度,核心对象概率、直接可达概率、模糊核心距离、模糊可达距离等一系列定义,提出的算法可以避免现有基于密度及层次密度的不确定数据聚类的问题,改善不确定数据的聚类效果。
(3)基于可能世界的AdaBoost不确定数据分类。针对不确定数据分类算法依赖于理想概率分布,传统分类算法不能直接处理不确定数据的问题,本文提出基于可能世界的AdaBoost不确定数据分类算法。通过在多阶段引入可能世界、增加多数投票和加权投票过程,该算法能够处理任意分布的不确定数据,并且使得传统分类算法可以直接处理不确定数据,从而拓展了不确定数据分类的应用范围,提升了不确定数据的分类效果。
(4)基于一致性学习的不确定数据聚类分类。针对现有不确定数据聚类分类算法忽视可能世界之间存在一致性的问题,首先,本文提出基于相似度矩阵一致性学习的不确定数据聚类分类框架。该框架利用一致性原则为不同可能世界学习一致的相似度矩阵来指导聚类分类过程,从而提升不确定数据的聚类分类效果。其次,针对边缘可能世界会对聚类结果造成负面影响的问题,本文提出代表可能世界的选取策略来过滤边缘可能世界,并将该策略与基于特征向量矩阵的一致性学习相结合,提出基于代表可能世界特征向量矩阵一致性学习的不确定数据聚类算法,从而提升了不确定数据的聚类效果。
(1)基于自适应混合距离测度的不确定数据聚类。针对不确定数据聚类中几何距离测度不能识别位置严重重叠且概率分布不同的不确定数据,概率分布距离测度不能识别不同对完全分离的不确定数据的问题,本文提出一种自适应的混合距离测度。通过同时考虑几何距离和概率分布距离,并根据数据集的位置重叠信息自适应地调节不同距离测度的重要性,该距离测度可以避免现有距离测度的问题,提升不确定数据的聚类效果。
(2)基于密度及层次密度的不确定数据聚类。针对基于密度及层次密度的不确定数据聚类中不确定信息丢失,计算复杂度高,固定概率阈值的问题,本文提出新的基于密度及层次密度的不确定数据聚类算法。通过使用精确的方法计算不确定数据点之间距离小于等于某一阈值的概率,引入概率邻域,支持度,核心对象概率、直接可达概率、模糊核心距离、模糊可达距离等一系列定义,提出的算法可以避免现有基于密度及层次密度的不确定数据聚类的问题,改善不确定数据的聚类效果。
(3)基于可能世界的AdaBoost不确定数据分类。针对不确定数据分类算法依赖于理想概率分布,传统分类算法不能直接处理不确定数据的问题,本文提出基于可能世界的AdaBoost不确定数据分类算法。通过在多阶段引入可能世界、增加多数投票和加权投票过程,该算法能够处理任意分布的不确定数据,并且使得传统分类算法可以直接处理不确定数据,从而拓展了不确定数据分类的应用范围,提升了不确定数据的分类效果。
(4)基于一致性学习的不确定数据聚类分类。针对现有不确定数据聚类分类算法忽视可能世界之间存在一致性的问题,首先,本文提出基于相似度矩阵一致性学习的不确定数据聚类分类框架。该框架利用一致性原则为不同可能世界学习一致的相似度矩阵来指导聚类分类过程,从而提升不确定数据的聚类分类效果。其次,针对边缘可能世界会对聚类结果造成负面影响的问题,本文提出代表可能世界的选取策略来过滤边缘可能世界,并将该策略与基于特征向量矩阵的一致性学习相结合,提出基于代表可能世界特征向量矩阵一致性学习的不确定数据聚类算法,从而提升了不确定数据的聚类效果。