论文部分内容阅读
随着信息技术的迅猛发展,数据的规模与日俱增、类型日益复杂,如何对现实中海量数据进行有效的处理、分析和应用成为迫在眉睫的课题。在这样的背景形势下,数据挖掘技术应运而生,而且在各行各业得到了广泛应用。聚类分析是数据挖掘领域最重要的分支之一,是根据某种相似度度量对数据集进行划分的数据挖掘技术。目前,数值型数据的聚类分析取得了很多成果,但实际的数据库和大型数据集不仅包括数值型数据,也包括大量的分类属性数据,如生物信息数据、疫情防控数据等。由于分类型数据不具有数值型数据固有的几何特性,针对数值型数据的聚类方法并不适用于分类型数据的聚类。因此,研究分类型数据聚类分析算法是非常必要的。论文详细介绍了聚类分析的概念及聚类分析中常用的数据结构、相似度量、目标函数等,分析了k-modes算法及其各种改进算法,对算法在相异度度量和初始中心选择两方面进行了改进,具体工作如下:(1)以信息共现知识为基础,基于数据对象属性之间的相互依存关系,建立了数据集属性之间的依存关联矩阵,提出了一种加权相互依存冗余度的距离度量方法,定义数据对象属性值之间的距离由内部距离和外部距离两部分的加权和组成,两个数据的距离为数据对象所有属性值之间距离的和。在具体计算时,一方面,内部距离采用传统k-modes算法的简单匹配相异度度量,体现两个不同对象属性值本身的异同;另一方面,外部距离利用属性之间的相互依存关联矩阵,对相互依存冗余度度量公式进行加权,体现其他属性与该属性的关联程度。(2)提出一种基于密度与距离的动态权重初始中心选择方法。该算法的主要思想是:第一,在初始中心选择过程中,基于待选点的距离,动态调整距离与密度线性相加时的权重,距离越远,密度的权重系数越大,距离越近,密度的权重系数越小,使候选初始中心尽量远离己选择的初始中心,同时不会丢失数据密集区的簇,使所选初始中心具有分布性。第二,动态调整密度计算时的半径,距离越远,半径越小,以避免选择到离已选的初始中心较远、周围相邻对象较多但分布相对松散的数据点和离群点,尽量选择到离已选的初始中心较远、但相对密度较大簇中的点,使所选初始中心具有区分性。第三,结合基于改进距离的离群点检测技术,依据数据点的离群因子,进一步筛选候选初始中心,将离群因子较大的点从候选中心集中剔除,确保选到合适的初始中心。实验结果表明,基于本文的距离度量和初始中心选择方法的改进k-modes算法,与传统的k-modes算法和其他改进k-modes算法相比,提高了算法的准确率与精度,降低了算法对初始中心选取的敏感度,证明了该算法的有效性。