层次聚类算法的改进

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:officerkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘领域的一个重要技术,被广泛的应用于医疗诊断、图像处理、信息检索、数据压缩和机器视觉等多个领域,其发展前景越来越受人们的关注。近年来随着信息化时代的到来,人们所接触到收集到的数据量越来越大,信息中所隐藏的信息也越来越复杂,人们迫切希望找到一种简单高效的聚类算法来对数据进行提取分析,因此对于聚类分析算法的研究具有重要的实际意义。在目前的各类聚类算法中,层次聚类以其简单的逻辑原理以及准确的聚类结果,得到了人们的广泛应用。但是该算法对数据中的孤立点较为敏感,不能很好的处理含有孤立点的数据集,此外该算法由于需要重复的进行相似度计算,从而导致了较高的时间复杂度和空间复杂度,使其不适用于大规模数据处理。本文主要针对层次聚类算法的以上不足,进行了如下两个方面的研究:(1)针对层次聚类算法对孤立点敏感的不足,提出一种基于能量场的改进算法EFHC (Energy Field Hierarchical Clustering),该算法将引力场的概念引入到孤立点的检测中,将数据中的每个点看成引力场中具有一定能量值的能量点,根据数据点与孤立点场能的不同,识别出场能较低的孤立点,并将其去除,该算法可以有效的去除数据集中的孤立点,提高聚类的精确性。(2)针对层次聚类算法计算复杂度过高的不足,提出一种新的基于数据切分的改进算法DHC (Divide Hierarchical Clustering),将大规模数据分块切分为小规模数据,然后对小数据块逐一进行聚类处理,得到每块数据中的代表信息,并在之后对其进行整合处理,进而将原有大数据进行聚类,通过在UCI数据集和机器合成数据集上的实验验证,该算法与原有算法相比大大的降低了时间复杂度,并且使聚类质量也得到了相应的提高。
其他文献
目的:观察速溶咖啡对小鼠学习记忆能力的影响.方法:昆明小鼠随机分为2组,即空白组,实验组,水迷宫对小鼠进行训练,空白组,实验组每天分别进行清水,速溶咖啡溶液灌胃30d,1次/d.
自然场景图像中的文本提取作为计算机视觉领域的重要分支之一,有着明确的应用方向和研究价值,成为国际上热门的研究课题。本文主要对基于细菌觅食优化算法的文本图像分割方法
跟骨骨折是临床最常见的跗骨骨折,外部形态复杂,表面关节面多,解剖上由载距突、距骨滑车及跟骨结节组成.骨折后表现为疼痛、肿胀、瘀癍、畸形等,严重影响患者生活和工作.由于
本文研究了包括线性预编码、非线性预编码在内的多种多用户MIMO系统的预编码方案,并研究了预编码中的信道信息反馈问题。主要贡献如下: 1.研究了多用户MIMO系统的迫零和MMMSE
软件无线电技术是一种新的无线通信技术,它的出现导致了接收机技术的革新,其基本思想是构造一个通用硬件平台,并使宽带A/D、D/A尽量靠近天线,较理想的软件无线电实现结构是直
目的:调查分析儿科护士身心健康情况,准确制定不良状况的几点对策.方法:选择2014年12月期间至2017年10月期间本院的40名护理人员作为调查主体,对其进行心理压力问卷调查,选择
随着人们对于数字视频和数字图像的需求越来越大,数字电视广播和手机电视迅速发展起来,但是人们对于数字图像质量的要求也越来越高。对于观众来讲,画面的质量几乎是最为重要的,然
目的:比较不同产地、不同炮制品知母中主要药效成分菝葜皂苷元含量.方法:以菝葜皂苷元含量为指标对不同产地、不同炮制品知母进行含量测定.结果:各产地知母中菝葜皂苷元的含
随着互联网的快速发展和P2P协议的广泛应用,P2P应用也随之迅速增长。由于P2P网络具有共享资源和文件的独特优势,因此P2P网络被广泛地应用到网络电视、资源下载以及局域网共享等
P2P(对等网络)技术打破原有C/S架构业务模型,近年来在文件交换、分布式计算、协同工作、分布式搜索和电子商务等得到广泛的应用。由于P2P应用基于自组织的弹性的网络结构,对网络