论文部分内容阅读
随着信息技术的飞速发展,聚类分析作为数据挖掘领域中非常活跃的研究方向,其在图像处理、信息检索、气象学、金融等领域得到了广泛的应用。但是聚类的边界点都位于簇的边沿区域,边界点的正确归属可以直接影响聚类的精度,同时边界点也具有多个簇的聚类特征。近几年来,聚类的边界检测也成为聚类中较为热门的研究方向。在现实中,混合属性数据相较数值属性数据、分类属性数据具有更为广泛的来源,但是目前对于混合属性数据的聚类边界检测仍然是一片空白。因此,为了满足提取混合属性数据的聚类边界的需求,本文进行了相关的研究及应用。首先,为了解决混合属性数据的聚类边界检测的问题,本文提出了一种混合属性数据的聚类边界检测算法BERGE(Cluster boundary detection technology for mixed attribute data set)。该算法基于一种有效处理混合属性数据的度量方法,计算混合属性下数据对象到簇中心的距离及隶属度,根据距离及隶属度定义边界因子获取数据集的候选边界集,运用证据积累的思想从候选边界集中提取出边界集合。通过在UCI数据集和真实数据集上的实验结果对比表明,BERGE可以有效地获取混合属性数据、数值属性数据、分类属性数据的聚类边界,且具有检测精度较高,可以抑制噪声等特点。其次,针对怎样提取混合属性数据中指定聚类或指定若干个聚类的边界的问题,本文提出了一种基于阴影集的混合属性数据集的聚类边界检测算法CHASM(A cluster boundary detection algorithm base on shadowed set)。该算法利用阴影集度量模糊性,依据聚类的结构定义了一个新的优化目标函数,将混合属性数据在任一个聚类上划分为core、exclusion、shadow三个集合。然后根据三个集合对聚类质心信息的贡献程度差异计算数据对象到簇中心的距离及隶属度,用于更新聚类的质心信息。当算法的执行收敛时,提取每个聚类的shadow集合作为整个数据集的聚类边界集合输出。该算法可以有效地提取混合属性数据、数值属性数据、分类属性数据的聚类边界,同时也可以提取数据集中指定聚类的边界集合。最后,基于对医学混合属性数据进行聚类边界检测的需要,本文开发了一个医学数据聚类分析平台软件MDAP(Medical data analysis platform)。该软件采用面向对象的设计思想,主要划分为了9个模块(总控模块、数据类型转换模块、数据格式转换模块、数据输入输出模块、数据显示模块、数据预处理模块、聚类分析模块、聚类边界检测模块、参数设置模块)。其中,主要实现了数据挖掘领域中5类经典的聚类方法和11种聚类边界检测算法,主要提供了对混合属性数据、数值属性数据及分类属性数据的数据预处理、聚类分析及聚类边界检测的功能。该软件采用增量式开发模式和工厂模式的设计模式,极大地提高该软件的灵活性和可扩展性,方便于后续算法或模块的添加。