混合属性数据的聚类研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:sss03157017633
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,很多领域都出现了容量庞大的数据管理系统,为帮助用户从这些含有噪声的海量数据中分析出有价值的知识,数据挖掘(DataMining,DM)技术应运而生。聚类(Clustering)作为数据挖掘和模式识别的主要方法之一,引起了人们的广泛关注。聚类算法是一种挖掘数据结构的有用工具,已广泛应用于文本检索及分类、图像分割和处理、模式分类等众多领域。  传统的聚类算法主要有K-means、K-medoids、K-prototype、PAM、CLARANS、DBSCAN、CURE、ROCK、谱聚类算法等。这些经典聚类算法都是用静态模型来挖掘聚类,只针对数值型属性数据或符号型属性数据进行处理,而对混合数据类型的数据聚类的效果不好。但是,实际应用中存在着大量由符号变量和数值变量共同描述的混合属性数据。因此,研究混合属性数据聚类具有重要的理论意义和应用价值。  现有的混合属性数据聚类算法不仅数量较少,还具有对于初始聚类中心的选择以及聚类数据的输入顺序敏感、易受噪声点和离群点影响、收敛于局部最优解或者获得全局最优解的代价较高、聚类结果随机性大、不稳定、准确性不够高等缺点,聚类性能和聚类质量都不理想,因此需要不断完善:(1)算法执行效率;(2)处理带噪声数据的能力;(3)发现任意形状的聚类;(4)初始点的选择;(5)聚类准确程度。  本文对聚类算法进行深入研究,针对混合属性数据聚类存在的问题,设计了一种基于相似权重和协同过滤的聚类算法对混合属性数据进行有效地聚类。算法首先将原始数据集划分为两个数据子集:数值型数据子集和字符型数据子集。然后,根据子集的数据类型应用聚类算法来得到相应的聚类。最后,将数值型数据集和符号型数据集的聚类结果结合起来作为符号型数据集,在此基础之上再利用过滤算法,得到最终的聚类。此算法可以有效地处理不规则边界,并且聚类的形状对于性能影响很小。本文还设计了一种基于图划分的混合属性数据聚类算法CGP(ClusteringbasedonGraphPartition)。算法将每一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。然后使用图划分方法中的NJW谱聚类算法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大而寻得最优解。实验结果表明,本文提出的混合属性聚类算法与其它方法相比具有明显的优势。
其他文献
钢铁工业的发达与否代表了一个国家的工业化水平,而且其在国家的经济组成成分中占了不可忽视的比例。带钢是钢铁工业的主要产品之一,用途非常广泛,可以用来制造自行车车架、轮圈
智能视频监控是机器视觉领域中的一个重要分支,是未来安全监控技术的发展趋势,在机场、银行、商场等场所中有着广泛的应用。其中运动目标检测技术是实现智能视频监控的关键技术
随着信息社会的不断发展,海量数据的作用日益明显。多重检验作为分析高维数据的重要理论,已经引起了许多统计学者的注意。多重检验有着广泛的应用,比如生物信息学、医药行业以及
粗糙集理论(Rough Set Theory, RST)作为一种能够有效分析和处理不精确、不确定和不协调信息的数学理论是波兰数学家Pawlak教授于1982年提出来的。在Pawlak经典粗糙集的研究
教务管理系统是高校教学管理的核心,一个科学的教务管理系统对于提高高校的管理水平、效率、质量以及保障正常的教学秩序起着决定性作用。教务管理系统的设计既要科学,具有完善
基于小波变换的图像压缩方法是一直以来都是图像处理领域比较重要的一个研究方向,而基于提升结构的小波变换能够方便的实现从整数到整数的变换。自适应方向提升(AdaptiveDirec
近年来,随着信息技术和电子技术的快速发展和不断成熟,嵌入式设备已经延伸到了人们日常生活的各个领域。嵌入式设备应用的类型和应用范围的不断扩大也使得嵌入式设备的市场竞争
随着计算机软件产业的发展,软件的规模日益增大,软件的质量也受到人们越来越多的关注,往往一个细微的漏洞都有可能被恶意攻击者利用,给用户造成难以估计的损失。因此运用测试技术
随着互联网的飞速发展,人们正面临着包括图像在内的各种多媒体数据的爆炸式增长。如何快速,有效地从海量的图像数据中检索出所需要的图像是目前一个急需解决的重要问题。然而底