聚类算法及基于簇模式聚类集成研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:glggg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的普及使得各行各业积累了大量的数据信息,人工处理这些大规模的数据已变得不现实。因此,数据挖掘技术应运而生了。在数据挖掘领域中聚类技术是其中的一个热点,聚类是以某种相似性度量方法对数据集中的对象进行度量,依据某种聚类策略把相似性大的对象划分到同一簇中,把相似性小的对象划分到不同的簇中,从而使同一个簇中对象的相似性最大,不同簇间对象相似性最小。不同的单一聚类算法都有一定的适应范围和适应于不同分布的数据集结构。有些聚类算法在数据量较小时表现出较好的性能,但是无法胜任在大规模数据集上聚类;有些聚类算法比较倾向发现均匀分布的凸状簇;有些聚类算法要求数据集的数据分布要比较紧凑;有些聚类算法对离群点比较敏感。单个聚类算法都有一定的局限性,而对多个聚类算法进行融合可以解决上述问题。对多个聚类算法进行融合能够提高系统的泛化能力和稳定性,而且对有差异的聚类算法进行集成还能提高聚类的准确率。本文对聚类技术和聚类集成技术进行了研究。简单介绍了聚类算法的种类及其代表算法。简述了聚类过程中的主要步骤,聚类分析中常见的数据类型及各种类型数据对象的相似性度量方法。对层次聚类算法进行了较深入的研究,并提出了一种基于代表点的改进的快速聚类算法(REPBFC, REpresentative-Points Based Fast Clustering)。该算法是一种凝聚型层次聚类算法,在簇的合并过程中,选用一定数量的代表点代表一个簇,从而能识别非凸状不规则的簇;根据9010规则的特性,分两个阶段完成聚类操作,与传统的聚类算法相比降低了算法的时间复杂度。介绍了聚类集成的研究热点,如何生成有差异的聚类集体和基于互信息的聚类集体差异性度量方法;介绍了常见的共识函数的设计方法。本文中给出了由多个聚类结果所组成的簇模式的概念,并提出了两种基于簇模式的聚类集成共识函数设计方法ECBCMP(Ensemble Clustering algorithm Based on Cluster-Mode and Partitioning methods)和ECCCM(Ensemble Clustering with Combining Cluster-Mode),并用C++程序设计语言对这两个算法进行了实现,在UCI数据集中的Iris、Wine和人工模拟的聚类结果数据集上进行了实验,均取得了不错的聚类集成结果。
其他文献
单样本人脸识别问题已发展成为模式识别、人工智能和机器学习领域中的一个热点和难点研究课题。目前大多数人脸识别技术的研究仅集中在怎样提高人脸识别系统的准确率上,并且
计算机立体视觉研究的主要内容是如何利用计算机实现人眼的视觉功能,即利用摄像机获得的投影图像实现对现实世界三维场景的识别与理解。立体匹配是计算机立体视觉研究领域最
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综合信息资源库。
网络服务质量(Quality of Service, QoS)属于一种网络安全机制,它具备疏通网络交通、保证网络传输效率、防止网络阻塞等优势。目前的网络技术,在提高网络传输速度、保证网络
在这个信息爆炸的的时代,以关系数据和XML形式存储、交换和发布的数字数据显著地增加,特别是在互联网上,这种呈指数的增长是前所未有的。当然,这两种形式的数据不仅可以让使用者
随着信息化时代的不断进步,人们越来越多的依赖网络,每天产生的电子信息数以万计,如何对这些信息进行有效的归类成了一大难题。数据挖掘技术的出现给人们指引了一条解决文本
时间序列预测一直是人们关注的热点问题,通过精确的预测结果,人们可以提前安排工作,预防不利情况发生,对于制定政策有着非常重要的意义。随着科学技术的不断进步,时间序列预测方法
虚拟植物是指以一定的植物形态结构模型和生理功能模型为基础,利用虚拟现实技术在计算机上重构植物的空间几何结构以及生长发育过程。虚拟植物研究具有很高的应用价值,不仅可
人类视觉系统之所以是目前世界上效果最好、精度最高、速度最快的图像处理系统,主要是由于人眼具有一系列特殊的视觉特性,其中与图像增强密切相关的特性包括色彩恒常性与亮度
TTCN-3是ETSI提出并维护的一种标准测试描述语言,利用它可以进行多种通讯领域上的各种系统测试。TTCN-3的应用已突破传统的网络协议测试领域,在一些大型的软件测试中得到了成