论文部分内容阅读
离群检测和聚类是数据挖掘的两个重要研究领域。虽然其相关技术已经非常成熟,但仍然有许多难题未能较好解决。本课题希望通过基础理论的研究继续推进离群检测和聚类的发展,并解决当前研究和应用中的部分难题。具体的工作为:从数据关系描述出发,研究离群检测和聚类的数学模型,进一步论证和优化其解方案。数据关系描述是数据挖掘领域中的基础性研究。在实际应用中,关系描述的好坏往往直接影响数据挖掘的结果。因此,论文首先研究了关系描述——不相似性度量,并完善了相关理论。欧式距离是最为常用的不相似性度量。然而,此度量无法准确描述数据之间的不相似性,甚至有时候会给出错误的不相似性描述。在此基础上,本文提出了基于邻域的不相似性度量以及基于连通性的不相似性度量。新度量分别综合了密度信息和连通性信息,能较好地反映数据之间的不相似性。为便于使用,文中还对基于邻域的不相似性度量进行了理论分析,获得其均匀分布估计值;对连通不相似性进行理论推导,获得了基于最小生成树路径不相似性描述。基于连通性考虑,论文提出了基于第k个最相似邻居的离群检测算法,即根据第k相似邻居的连通性度量离群程度。此第k相似邻居的连通性对应递闭包不相似性第k小值;通过证明,该第k小值也等于Prim最小生成树算法的第k个被合并点的连通性。所以,文中将离群性定义为考察点与第k相似邻居之间的最小生成树路径上的最大边。另外,提出的离群检测算法还考虑了密度因素,因此适用于任意密度、任意形状的数据,且在局部离群点和簇离群点检测方面表现出较好性能。连通性也是聚类需要考虑的重要因素。因此,论文提出了基于连通性的划分模型以及相应的聚类算法。该模型能确保在多项式时间内最小化代价/损失函数,即在多项式时间内获得理论上的最优划分。相应的聚类算法适用于任意流形的数据。尤其对满足约束的数据(簇内连通性高于或等于簇间连通性),其聚类效果尤佳。另外,通过子簇划分,可极大减少时间复杂度,且能在高概率下保持理论最优划分。尤其在图像分割应用中,改进后的聚类算法的理论时间可远低于平方级,且保持较好的分割效果。