基于划分和层次的混合聚类算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:wwwygtwww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在综合分析基于划分的聚类方法(K 均值)和层次凝聚聚类算法各自优缺点的基础上,同时借鉴前人对算法改进的各种混合聚类方法,提出了一种聚类质量更好的改进的分阶段混合聚类算法 IHCA (Improved Hybrid Clustering Algorithm),给出改进方法IHCA的策略思想、算法描述及性能分析,最后通过基于二维数据空间的模拟样本数据的实验验证该改进算法的有效性和合理性,在某些方面应用性能优于原算法。 IHCA算法实现主要分四个步骤完成。第一步:应用改进的层次凝聚算法进行初始聚类,相似性度量选择簇质心之间的距离,利用相似性度量阈值f来控制生成的初始子簇数,其主要步骤为:(1)由p维空间的n个数据点的数据矩阵分别计算各点之间的欧氏距离,得到一个相异度矩阵,只存储上三角,将每个数据点作为单点簇并生成聚类特征,并计算相似度量阈值f.(2)将相异度矩阵的上三角距离数据按升序排序并得到一个序列;(3)根据已排序的距离序列的顺序 d[I,j](1≤i
其他文献
电机作为当今工业生产中的主要动力设备,也是当今工矿企业及日常生活中耗电量最多的一种电气设备。据国家计委的统计资料,2005年度我国电机的总装机容量已达5亿多千瓦,年耗电量
如何在应用的开发和演化过程中适应新的需求和发展,是提高软件开发效率、保证系统稳定性的一个关键问题。领域工程针对变化性的研究范围横跨问题域至解空间,体现于软件的业务需
随着云计算时代的来临,基于基础设施服务的云计算管理平台受到了广泛的关注,而开源云平台OpenStack的产生与快速发展也正是得益于此。从最初的Austin版本到现在的最新版本Kil
随着网络技术的发展和存储技术的增强,数据传输量越来越大,人们对通信带宽的要求也越来越高,数据带宽已经成为限制系统整体性能的一个重要瓶颈.在数据的传输过程中,串行和并
伴随着企业信息化建设的不断推进以及信息化程度的不断提高,各种应用系统集成的需求越来越大。应用集成首先要面对的问题就是数据集成。如何有效地实现数据共享与集成,直接关系
当今,互联网已经成为一个事实上的信息基础设施,人们的工作、生活、娱乐等都离不开网络,这使得网络及其上层服务的性能成为人们日益关注的问题.性能评析可以帮助了解网络及应
基于J2EE的中国人寿审计管理系统内部管理子系统,是充分利用了J2EE体系结构的优点,实现了多层次、模块化、可扩展、易移植和平台独立性强的审计系统应用。 本文介绍了分布式
随着计算机网络的发展,软件工程师在构建、维护和增强高质量的分布式应用软件面临着严峻的挑战,开发者必须对许多复杂问题有深入了解,比如服务的初始化和分布、并发控制、流控制
人类长期以来一直梦想造出像人一样的机器,能够代替人去从事各种工作,成为人们日常生活中的亲密伙伴,甚至人们可以将其作为人类社会的一部分,能够像与人一样的与其进行交流。随着
机群系统已经成为当今高性能计算的主流,与传统工作站和PC机不高的资源利用率相比,机群系统需要最大化系统的资源利用率,满足用户多样化的需求,增强其可用性,以充分利用其昂贵的资