基于树形重心与割边约束的聚类算法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:zhongxuhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是模式识别与数据挖掘等诸多领域的重要技术之一。然而,由于簇的大小、形状、分布各异,目前已有的聚类算法,包括划分式、层次式、基于密度峰值和基于最小生成树等方法都无法令人满意。大量研究发现,相比均值中心和密度中心,使用代表点作为聚类中心的方法具有较好的性能,该方法受噪声、离群点和簇的形状的影响较小。另外,最小生成树的形状并不会随簇边界的变化而变化,因此,基于最小生成树的聚类算法能解决对簇的形状和噪声敏感的问题。本文重点解决了如何在最小生成树上搜索代表点,计算类间距离,以及簇的合并准则,并构建了基于最小生成树的快速聚类算法。本文从在当前研究现状的基础上,主要进行了以下工作:(1)提出了一种基于最小生成树树形重心的类间距离度量方法。该方法的提出主要基于以下几个原因:首先,传统的基于最小生成树的聚类算法,对最小生成树的几何形状利用率不高;其次,使用欧几里德距离的度量方法对类别的形状分布敏感;最后,传统的基于代表点的类别中心选取方法的时间复杂度较高。最小生成树的树形重心作为代表点能够充分利用其几何形状,测地距离可以适应多种形状的簇。通过树链剖分技术和二分算法快速地合并簇,从而大大降低计算代表点与类间距离的时间复杂度。(2)提出了一种限制条件下,结合广度优先搜索算法的预聚类方法。为使代表点方法不退化为样本点到样本点之间的距离,提出了该预聚类方法来解决算法初期每个类别内部样本点数量过少的问题,以满足后续应用最小生成树树形重心的类间距离度量的需求,从而提高聚类性能。(3)提出了一种基于最小生成树树形重心和割边约束的多阶段层次聚类算法。整体算法分为三个阶段:预聚类、基于割边约束I的小类合并过程和基于割边约束II的最终聚类过程。该算法考虑到了两个因素:类间距离和两个邻接类簇之间的内在联系,从而使得算法中合并的过程更加准确,减少错误的合并过程。经过人工合成数据集和UCI真实数据集上的实验验证,本文算法具有良好的聚类性能。
其他文献
计算机网络技术、分布式控制技术、电力电子及传感通信技术的大力提升和飞速发展,极大地推进了复杂系统理论的日趋成熟和完善。作为复杂系统理论的重要组成部分,多智能体系统的分布式协同控制受到了研究人员的极大关注,相关研究结果已被广泛应用到众多领域,如编队控制、传感器网络中的分布式决策、以及生物系统中的聚集和集群行为。一致性是多智能体系统的一种典型的动力学行为,要求多智能体系统中各智能体的特定状态量依据其邻
高精度定位技术现已被广泛应用在各个工程领域,红外线定位技术、射频识别技术等常用的定位技术因对环境要求苛刻导致应用范围受限,惯性定位技术因其不依赖外界环境的而被广泛
随着Web应用结构与环境的日益复杂,为了确保Web应用软件设计达到预期的功能需求,需要对Web应用进行充分的测试,而Web统计测试可以在一定的时间和投入内有效地确保Web应用的质量。然而传统的统计测试在测试过程中仍存在一些不足。首先,传统统计测试对Web日志中用户行为的量化不够明确。如何从Web服务器日志中提取、分离更有价值的用户信息是Web应用统计测试的一项重要内容。其次,统计测试的测试重点不突
全息术用作一种成像技术,能够完整地记录物体的波前信息,实现了真正的物体三维成像。数字全息术通过将传统的光学全息与计算机图像处理技术相结合,可以方便准确地进行全息图
伴随我国经济社会的发展,各行业规模逐渐扩大,因此对人才需求规模逐年增长。目前对教育需求巨大,己有的教育资源无法满足居民对教育的需求,民办教育在我国教育发展中承担着越来越多的教育任务。在此背景之下,职业院校的发展,特别是民办职业院校的发展进入了机遇与挑战并行的时代。但是民办职业教育在发展中仍然存在很多问题,作为具备企业与高等教育机构双重属性的存在,其发展需求和管理运行均存在一定的特殊性。只有解决了这
在多标签学习中,一个样本同时具有多个标签,如一张图片同时拥有“海洋”和“帆船”的标签。然而,在现有多标签学习方法中,多数方法仅仅考虑数据集中标签之间的依赖关系(局部标签相关性)或只考虑标签之间的语义相似度(全局标签相关性)。事实上在多标签学习中,样本具有多个标签,而且局部和全局的标签相关性同时作用于实际应用,不应该局限于考虑成对标签的相关性,而忽略标签之间的高阶相关性。因此,本文提出一种新颖和有效
由于经济朝着全球化的发展趋势前进,导致经典模式的制造型企业变得越来越大,产品的款式也是越来越多,同时也就会更加复杂,所以,对于经典模式的企业来说也是面临着非常严峻的挑战。对于生产制造型企业来说,影响制造企业最关键的一点就是车间调度问题,公司在解决资源的分配问题时也需要要用车间调度问题来解决的,因此这已经是重点要研究的问题。对于车间的生产方案怎么去安排,会对企业的发展有很大的影响。在本篇文章中,通过
软件老化(Software Aging)指系统在长时间运行过程中,由于错误的积累导致系统性能逐步下降并最终可能导致系统崩溃的现象。软件恢复(Software Rejuvenation)是指一个需要成本
教研活动是教师进行教学改革、提高教学水平、增进同事交流、提高学生学习效果的重要方式。教研活动开展的方式多样,既有学校组织的教研活动,也有教师自发进行开展的,当下占主导地位的是学校组织的教研活动。小学教师教研活动普遍面临着效率低下、形式主义及知行分离等问题,既占用了教师大量的课余时间,又难以达到预期效果。同样存在这一困境的W小学希望能够通过变革现有的教研活动模式,调动教师的积极性,发挥教师作用,保证
可溶液加工的有机小分子半导体材料具有分子结构明确、空气稳定、易提纯以及性能优异等优点,成为有机电子学研究的热点之一,特别是基于吡咯并吡咯二酮(DPP)的半导体材料引起了