基于多种层次聚类的算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jinz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来大数据、互联网+以及云时代等概念的提出将数据挖掘技术推向了各行各业,聚类作为数据挖掘的重要方法被广泛应用于各个领域。随着数据规模的增大以及数据类型的多样化、复杂化,传统聚类算法面临着严峻的挑战。目前大多聚类算法都存在对参数依赖性高、计算量大的问题,针对这些问题,提出了一种高效的新型层次聚类算法。其次,现有聚类算法大多采用样本间的距离作为相似性度量,该相似性度量方法存在度量不准确、受噪音点影响大等问题。针对此类问题,提出了一种基于样本分布的相似性度量方法,在该相似性度量的基础上,提出了一种基于密度聚类和层次聚类的混合型聚类算法。本文的主要工作包括以下两部分:1.提出了一种高效的新型层次聚类算法。该算法由分裂和合并两阶段组成,分裂阶段将初始数据集作为一个类,通过多次分裂得到多于实际聚类数目的子类。在合并阶段将分裂过程中多划分的子类合并为正确的类。针对多数层次聚类算法计算量大的缺点,在分裂阶段提出一种根据统计样本分布找到最佳分裂位置的方法,该方法准确、高效并且避免了重复地计算样本相似性矩阵,从而大大减少了计算量。在合并阶段提出了一种带有标记检测的合并策略,该策略通过在分裂阶段中加入分裂标记和层次标记来记录分裂过程,从而在合并阶段可以避免不必要的子类合并检测。使用该策略可以大大减小合并过程的计算量,克服了一般层次聚类算法中间结果不可重构的缺点。本章算法准确、高效并且无需任何聚类参数,实现了完全无监督聚类。2.提出了一种基于密度聚类和层次聚类的混合型聚类算法。该算法包括两个聚类阶段,分别为第一阶段的密度聚类和第二阶段的层次聚类。密度聚类阶段在快速密度峰值算法的基础上提出了一种自动确定聚类中心的方法,该方法利用快速密度峰值算法中样本密度和距离的乘积以及该乘积的变化率作为指标,自动地选择大于实际类个数的聚类中心。该方法克服了快速密度峰值算法人工选择聚类中心容易错选、漏选以及无法确定聚类中心个数的问题。在层次聚类阶段主要是将密度聚类中多划分出的子类合并,在此基础上本文算法提出了一种基于样本分布的子类间相似性度量,该度量充分考虑了样本的分布情况,并且加入了噪音点处理部分,可以更加有效的度量子类之间的相似性。该算法根据密度聚类和层次聚类的特点,有效地将两者结合,提出了一种混合聚类算法。
其他文献
把凉干的猕猴桃种子,于12月中旬进行层积处理,能取得良好的出苗率。具体作法是:先将猕猴桃种子放在水温50~60℃的温水中浸24小时,让种子充分吸水,捞去嫩籽,然后将种子与沙混
不管是纸质媒体时代还是网络媒体时代,报纸作为传播信息和文化的载体,在人们的生活中占有重要地位。随着时代的发展,报纸版面设计也在不断的创新和发展,报纸编辑在促进报纸创
人性与道德教育的关系是中国古代伦理学家和教育家十分关注的问题。儒家的两位大师孟子和荀子对人性作出了不同的判断,孟子主性善,荀子倡性恶。孟子主张人先验地具有善的道德
本文针对简单固体及球形状的分子构成的固体的解析状态方程进行研究,在自由体积理论(FVT)基础上结合解析平均场(AMFP)方法及分子间相互作用的势能模型建立了几个简单固体的解析状
中共十一届三中全会开启了改革开放的新时期,中国开始处于矛盾叠加的社会转型期,各种社会问题凸显,腐败问题就是诸多需要解决的问题之一。腐败现象多发易发,反腐败斗争形势严峻复杂,反腐败工作面临许多新情况新问题。为惩治腐败,中共制定了一系列党内反腐倡廉法规。改革开放四十年来,党内反腐倡廉法规建设经历了怎样的发展过程,各个阶段有什么特点;党内反腐倡廉法规建设取得了哪些成就,有哪些值得借鉴的历史经验;目前还存
澳大利亚已正式要求世界贸易组织(WTO)成立一个争端小组,调查世界第二大食糖生产国印度是否违反了规则,此举加剧了澳大利亚与印度在食糖贸易的争端。此前今年3月,澳大利亚联
合成孔径雷达(Synthetic Aperture Radar,SAR)影像不受天气条件影响,能够弥补光学传感器在时间和空间上受限造成的成像“盲区”,准确的描述地面目标的特性,为目标检测提供了
为了解‘辣椒杏’生殖生物学特性,以‘辣椒杏’为研究对象,以‘旦杏’、‘库买提’、‘克孜朗’为对照品种,对比研究了花芽形态分化,开花生物学特性,授粉结实特性,果实发育动
单独施用有机肥料或化学肥料均不能持续高效地保持农田生产力,长期大量矿质肥料的施用使土壤变得贫瘠,有机无机肥料配施可改善土壤肥力状况,保障土地的可持续利用。生物炭因