基于凝聚模糊K-means的聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:din6688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,人们已经积累了越来越多的数据。面对这些数据,如何从中找出对生产生活有用的知识已成为数据挖掘、模式识别和机器学习等领域的一个重要研究问题。K-means聚类算法是帮助人们解决这一问题的重要手段之一。K-means聚类算法由于它的高效性及简单性,已被广泛的应用于各个行业与领域。然而K-means聚类算法的效果受两个与生俱来的问题影响,一个是确定簇的个数的问题,也就说模型选择问题;另一个是它的局部优化问题,这使得聚类结果非常依赖于初始中心的位置。Li Mark提出的凝聚模糊K-means算法可以有效的避免这两个问题。本文基于该算法,对以下三个方面问题的做了研究:(1)多级密度数据(不同密度且具有层级结构簇数据)的聚类问题。本文首先基于凝聚模糊K-means算法,提出一种Clustering Tree算法。该算法通过层次式的使用凝聚模糊K-means算法,并结合簇评估和高斯分布检测的办法去生成一棵聚类树,从而解决经不同密度且具有层级结构簇的数据的聚类问题。经实验验证,该算法能有效的解决这种数据的聚类问题,同时由于这棵树反映了各个簇之间的结构关系,其还很有利于发现更有用的信息。(2)含有少量先验信息数据的聚类问题。基于Clustering Tree算法提出了半监督Clustering Tree算法,该算法利用数据中的一些先验信息去解决半监督聚类的问题,并通过实验验证了该算法的性能。(3)应用本文所提出的Clustering Tree的聚类算法在训练数据上建立一棵聚类树,基于这棵聚类树形成了类决策树和类KNN的两种分类办法,实验结果显示出该分类算法能得到与传统的决策树等分类算法相当甚至更好的分类精度。在完成本文的研究内容后,最后提出了可以进一步研究的内容及方向,对于以后的K-means聚类算法的研究及应用问题有一定的指导意义。
其他文献
随着计算机网络技术的迅速发展,Web正以其广泛性、交互性和易用性等特点迅速风靡全球,并且已经渗入到社会的各个应用领域。Web应用软件的规模不断扩大,使得系统软件的复杂性
无线射频识别(RFID)技术是一种无线通信技术,利用无线电射频信号识别特定物体并读写相关数据,在读写过程中不需要系统与指定物体建立机械或光学接触。因为RFID标签的成本低,
随着多媒体技术和互联网络的迅速发展,流媒体应用越来越深入和广泛,针对提供流媒体服务的流媒体系统的研究和设计的需求就非常迫切。当前提出了一些流媒体解决方案,但是这些
视频监控技术在安全防范、信息获取和指挥调度等方面有着广泛的应用,提供生产流程控制、大型公共设施安防、医疗监护及远程教育等多种服务。智能视频监控系统,是指使用计算机
由于卫星网络具有全球覆盖、24小时不间断通信等特点,在通信系统领域正发挥着越来越重要的作用。卫星网络具有长时延、高误码率、高时延带宽积等特点,因此,如果将应用于地面
随着互联网的不断发展,网络文本中所包含的有价值的信息越来越多。由于文本中包含各种实体之间关系纷繁复杂,以人工和经验的方式进行相关知识的获取及组织已经远远不能满足应
本文设计了一种基于ZigBee无线射频通信技术的井下搜救机器人自主定位系统,对一群移动搜救机器人进行协作定位。采用对机器人群进行分组的策略,使每次都有一个分组机器人固定
数据通信模块是在PXI主机和用户功能模块间实现数据桥接所必需的接口模块,对它的研究具有很强的实用价值。本课题组提出了一个基于TMS320C6205 DSP开发符合PXI/PCI总线标准的
本文通过对两种互联网核心协议IPv4和IPv6的比较,揭示了IPv4将被IPv6所取代的历史必然性。主要论述了两方面的内容:随着互联网的发展,传统网络层协议IPv4所暴露出来的种种缺
嵌入式Linux操作系统和ARM微处理器的结合成为嵌入式开发的主流。同时,工程扫描仪广泛应用于建筑、测绘、军事、印刷、航天、机械等众多领域。本文主要论述基于嵌入式Linux的