基于代表点的层次聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:aigufeixi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的常用技术之一,它旨在将数据集划分为若干个小簇且保证簇内对象的相似度尽可能高于簇间对象的相似度。聚类分析不仅可以作为探索数据集内部结构特征的工具,也可以作为其他数据挖掘技术(如分类、特征提取和属性子集选择等)的预处理步骤。聚类分析已经在计算机科学、物理学、经济学、生物学和医学等学科中得到广泛的应用。经过几十年的发展,聚类分析的相关理论和算法已经形成了一些成熟的研究分支。其中,基于层次的聚类方法由于原理简单且易于解释,得到了比较广泛的关注,但它同时也面临着b不够准确、时间复杂度较高、调参困难等问题。“代表点”是聚类算法中一个常见的概念。一方面,它可以用于压缩数据集,捕捉数据集的局部特征;另一方面,它可以用于找出高质量簇中心,在此基础上通过剩余点分配过程完成聚类。本文针对如何提升层次聚类算法的效率,研究基于代表点的层次聚类算法,论文主要研究工作和贡献包括两个方面。其一,我们融合自然邻居和同步动力学原理,提出了一种新的层次聚类算法Na NSyn C:首先,通过使用“自然邻居”这个局部邻域概念,我们实现了算法整体的去参化;接下来,利用同步聚类算法中相似的数据对象会逐渐运动到同一位置的特性,我们提出了“同位代表点”的概念并应用到层次聚类算法的框架中,逐步减少参与到迭代过程的数据对象数目,从而降低了算法的时间复杂度。在人工数据集和UCI数据集上的对比实验证明,Na NSyn C算法比同步聚类的效率更高且参数依赖更少,聚类性能也优于最近的RSC算法。其二,提出了另一种基于局部核心和共享概念的层次聚类算法HCLCS:首先,基于“共享”的思想构造了一种扩展的代表点搜索算法ELORE,用于对数据集进行初始的簇划分;然后,将层次合并过程拆分为两个子步骤,第一步,提出“簇间联结度”概念将极有可能属于同一类别的簇进行“预联结”,第二步,在已联结形成的中间簇和未参与联结的初始小簇上进行传统的层次聚类。在人工数据集、UCI数据集和KEEL数据集上的实验证明,HCLCS算法整体优于五个对比算法,能够识别任意形状的簇,在减少运行时间的同时提升聚类的准确度。
其他文献
数控机床是制造业的工作母机,是集机电液控为一体的复杂产品,国内数控机床产业主要是中低端机床产品,数控机床质量不高是制约数控机床走向高端的主要技术壁垒。数控机床质量分析存在多学科交叉、质量特性数量庞大且关系复杂问题,很难进行精细化控制。元动作单元是数控机床的最小运动单元,分析粒度适中且相互独立,其质量的优劣能直接体现数控机床整机功能和性能,而质量是通过质量特性进行表征的,因此对元动作单元质量特性进行
钢铁企业生产过程中伴随着能源消耗和环境污染,烧结作为钢铁生产的重要步骤,成为了能源消耗和环境污染的重要关注工序。随着近期碳达峰和碳中和日程的确定,烧结过程中的节能减排问题也被提上了技术开发日程。本文系统研究了原料条件、工艺参数及某些特定技术对铁矿石烧结过程CO排放影响规律,并提出了减少烧结CO排放的相关措施。论文的研究内容和结论如下。(1)在烧结制粒过程中,保证烧结原料具有良好透气性的前提下,含水
目前,随着笔记本电脑、手机等便携式移动设备的需求增加,对清洁、高效的电源设备提出了更高的要求。直接甲酸盐燃料电池(Direct formate fuel cell,DFFC)以其独有的室温启动、稳定高效、无毒害、燃料便于储存与运输等优势,受到了国内外学者的广泛关注。但DFFC结构中昂贵的离子交换膜与高载量的贵金属阴极催化剂使得DFFC成本居高不下。近年来,大量研究表明廉价的碳质催化剂对氧还原(Ox
作为21世纪的绿色工程材料,镁合金拥有高比刚度、高比强度、可回收利用、优良的电磁屏蔽性能以及资源丰富等优点,在航空航天、汽车工业、3C产品以及国防等领域广受青睐。但镁合金因自身化学性质和物理结构存在一些致命短板,如绝对强度低,室温塑性差,高温性能较差,进一步限制了镁合金在工业和商用产业上的大规模应用。因此提高镁合金室温和高温强度,改善镁合金塑性及加工成形能力逐渐成为材料学者的目标。根据国内外研究报
热电转换是分布式发电及废热利用中不可或缺的环节,而热电材料是实现热能向电能直接转换的关键材料,热电性能对热电材料的转换效率具有决定性作用。目前,碲化铋是室温下性能最好的热电材料,碲化铋纳米化有助于进一步提高碲化铋材料热电性能。但纳米碲化铋的制备周期长,制备过程中涉及强还原剂及有毒溶剂污染环境。本文以碲化铋为研究对象,采用溶剂热法制备碲化铋纳米片,并将纳米碳化钛薄片引入碲化铋纳米片基体,研究了碲化铋
贵金属及其合金由于具有良好的导电导热、化学稳定性以及合适的硬度与弹性,早期的电接触材料主要以贵金属及其合金为主。随着工业的快速发展,世界各国对贵金属消耗激增的现象日渐重视,低成本、高性能的层状复合电接触材料受到人们的关注。贵金属/廉金属层状复合电接触材料兼具贵金属优良的电接触性能以及廉价金属优秀的机械性能和导热性能,具有广泛的应用前景。本课题利用连轧加中间退火技术将C7701基带与AgPd30复层
由于石油等化石燃料的紧缺及对环境问题的影响,新能源汽车在各国得到发展。目前市场上较普遍的新能源汽车包括四大类型:纯电动汽车、混合动力电动汽车、燃料电池电动汽车和其他新能源汽车。其中,纯电动汽车具有能量利用率高、零排放等优点,近几年在世界各国得到迅速发展。而与同样大小的铅酸电池、镍镉电池、镍氢电池相比,锂离子电池电量储备最大,重量最轻、寿命最长、充电时间最短、无记忆效应,因此成为极有潜力的新一代二次
在现实生活中存在大量廉价易获得的无标记样本,具有指导性作用的有标记样本获取十分昂贵且耗时,为了充分利用有标记样本和无标记样本的信息,半监督学习算法在这种情况下就诞生了,获得了众多学者的高度关注。自训练算法是半监督学习中常用的一种方法,其采用数目较少的带有标记的样本点学习,通过寻找少量有标记样本的高置信度点训练得到高性能分类器。自训练算法中如何确定少量有标记样本的高置信度点是算法的核心,它决定算法是
可再生能源受环境限制,大多具有天然的随机性和间歇性,难以单独作为持续稳定的电源为系统供电,而储能系统的设计是解决这一问题的有效方案。传统的储能系统通常由单一类型的储能设备构成,如铅酸蓄电池等。然而,现有的储能设备在能量密度和功率密度等特性上具有原理上的矛盾性,难以兼顾,为此,相关学者提出了一种由蓄电池和超级电容共同组成的混合储能系统,旨在实现不同类型装置的优势互补。本文针对这一类混合储能系统在应用
冷弯薄壁型钢―钢板剪力墙是一种新型高性能墙体结构,此类墙体利用冷弯型钢边柱与内嵌薄钢板共同作用来增强墙体的抗剪性能,拥有较高的实用价值以及广泛的应用前景。当前,这种新型钢板剪力墙的研究成果尚不成熟,其受力性能与抗剪理论方法亟待更加完善性的分析和探讨。本文基于试验研究与有限元分析,对冷弯薄壁型钢―钢板剪力墙的抗震性能进行了深入的研究,得到了剪力墙的滞回性能、破坏特征以及刚度退化,研究了纵横向加劲肋、