基于对比学习的深度聚类算法研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:sdggertretfdhghdfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类主要针对没有标签的数据集,按照某种特定的标准将数据进行分组,是无监督学习中的重要算法之一。深度聚类通过将神经网络与聚类算法相结合,同时优化特征空间与聚类结果,极大地提升了算法性能,深度聚类算法主要解决的问题是如何学习到产生更优结果的区分性表示。对比学习可以学到更高维度、更本质的代表性特征,在表示学习中得到了广泛关注。由于对比学习的良好表现,出现了联合优化对比学习与深度聚类的算法,此类方法通常利用对比学习基本框架学习表示,基于该表示进行聚类。然而对比学习强调数据增强的重要性,通过使数据的不同增强在特征空间中尽可能一致对每个实例进行区分,而聚类目标是对实例进行分组。在将对比学习与深度聚类相结合时,若直接遵循对比学习的基本框架,会忽略聚类目标,此时学到的表示可能不是聚类的最佳表示,使得聚类性能受到限制。因此结合时需要考虑不同实例之间的相似性所构成的自然群组。本文针对以上问题,面向聚类中不同的数据关系提出两种算法,将对比学习与深度聚类相结合学习聚类友好型表示,以提升深度聚类的效果。主要研究内容包括以下两个方面:(1)基于自步学习的实例级别对比聚类算法。该算法引入自步学习的思想,通过由简到难的方式对数据进行聚类。算法共分为两阶段,第一阶段通过考虑数据与簇之间的关系,对容易区分的数据进行了初步聚类,在得到的潜在空间内易分数据分布在相应簇中心周围,以此获得成对相似性关系。第二阶段使用对比学习进行训练,过程中难分的样本逐渐易分,各个簇内样本更加紧凑,不同簇间样本远离。对比学习中正负例由第一阶段获得的成对相似性来构造,从而进行实例级对比学习。该算法在常用数据集上的实验结果与多个算法结果相比都有不同程度的提升,说明该算法可以获得更好的聚类效果。(2)基于图结构的实例-簇级别对比聚类算法。该算法通过考虑数据与数据间关系、簇与簇间关系来实现对比聚类,将常用的实例级别提升到簇级别。主要利用图结构来捕捉数据间的潜在关系,采用深度子空间聚类的基本思想,在自编码器中加入自表达层获取图结构,从中反应样本的邻域信息。通过得到的图结构来构造对比学习中的正负例,同时将特征矩阵的列作为数据的聚类预测,在列方向进行簇级别对比学习。在实例级别与簇级别都融合了潜在的类别信息,从两方面进行训练同时进行特征学习与簇分配。该算法在三个数据集上进行了实验,与多个先进的聚类算法进行对比,验证了该算法的可行性与有效性。本文提出两种深度聚类算法,通过考虑不同角度数据间的关系将对比学习更好地与深度聚类相结合,学习聚类友好型表示,以达到提升聚类效果的目的,具有重要的理论意义与实用价值。
其他文献
非对称场流分离技术没有固定相、分离压力小,与传统的凝胶渗透色谱相比具有天然优势,可以作为高分子材料表征的有效手段。但由于膜的相容性问题,场流技术一般运用于水相体系,很少用于有机相体系中。本文探索了不同半透膜在有机场流分离中的应用情况,摸索了有机体系下非对称场流的条件,成功在有机溶剂中分离了聚甲基丙烯酸甲酯和聚丙烯腈两种高分子材料。
期刊
文章概述了光照、饲喂程度、运动量、公猪诱情、激素处理5种提高断奶母断7天发情率的方法及适用情况,分析各自的优缺点,为提高母猪繁殖率、增加养殖经济效益提供参考。
期刊
母猪生产在整个生猪产业中占有非常重要的地位,如何做好母猪发情分娩期间的饲养和管理工作,是决定整个生猪产业前途命运的关键因素。该论文主要从猪舍环境条件、调节发情的方式方法、发情鉴定、配种、妊娠鉴定、确定预产期、分娩、疫病控制、卫生消毒、饲料及饲料添加剂、废弃物处理、资料记录等主要环节,为广大母猪养殖企业及母猪养殖户提供科学化、规范化、系统化的技术指导和参考服务。
期刊
“中国制造2025”的提出促进了制造业企业智能制造的发展,实践表明,在制造业企业系统资源优化分配过程中,精益数字化是智能制造的一种实践基础,有利于推进企业在逆境中快速恢复和反弹。但由于企业在精益数字化推进的过程中受外部环境冲击的影响,导致企业在进行精益数字化转型时表现出不同的形式。因此在“异质资源稀缺、御险能力薄弱”的情境下,在组织韧性视角探讨下制造业企业精益数字化转型机理与路径,有利于带动产业集
学位
随着经济全球化进程的日益加快和商业环境的动态变化,新产品开发作为企业生存和发展的关键环节,成为企业获取竞争优势的重要保障。但技术的交叉复杂、产品生命周期的逐渐缩短和企业自身资源的有限等问题使得企业“心有余而力不足”,仅凭自身难以迎合快速变化的市场需求和客户偏好。而开放式创新模式巧用边界模糊打破了企业间组织、技术、文化和信息的边界障碍,实现了内外部知识、技术和信息等创新资源的双向流动,解决了企业产品
学位
在“碳达峰、碳中和”国家战略目标驱动下,中国能源行业积极响应能源转型政策,减少化石能源的使用,加大对氢能的开发利用。然而,目前我国制氢产业仍处于初步发展阶段,在生产成本、资金、政策支持等方面仍存在许多不足。当前是中国制氢产业发展及规模化推广的重要时期,因此,本文对我国不同制氢技术的综合效益进行评价,有助于制氢产业的绿色转型和高质量发展。首先,本文阐明可持续发展理论与技术经济分析理论,介绍制氢技术的
学位
随着云计算、区块链、大数据等信息技术推动全球进入数字经济时代,以数据为代表的生产要素深刻改变着零售供应链的商业模式,推动零售供应链创新发展。然而,新冠疫情的世纪冲击下零售供应链信息不对称、协调效率低下等供应链韧性不足的问题更加凸显。作为社会消费重要的场景,零售产业的供应链韧性提升具有重要意义。因此,本文首先基于TOE理论,从技术-组织-环境三个层面搭建零售供应链韧性影响因素框架;其次,利用结构方程
学位
决策是一个高度跨学科的研究领域,随着信息技术和社交媒体的快速发展,决策问题也日益变得复杂,可能涉及越来越多拥有政府、商业、学术等不同的社会背景的决策者,同时他们的社交网络可能对决策结果产生影响,传统的群体决策理论已经不足以解决此类问题,社会网络背景下的大规模群体决策研究因此逐渐受到研究者的关注。本文以提出合理且科学的大规模群决策方法为目标,从如何识别和处理决策者评价信息的不确定性,如何解决社会网络
学位
<正> 一、前言 目前国内外凹板印刷在PVC薄膜的连续化工艺中已经广泛应用。印纹精细,图案清晰,色调范围广,并可套色,生产成本低。因此发展很快,被许多生产薄膜的厂家所采用。 我厂生产钙塑装饰硬板,是以塑代木的主要产品,在建筑、家具、室内装饰等方面得到了广泛的应用。因此,怎样来美化装饰的板面,除了色彩鲜艳外,木纹的印刷是装饰硬板表观质量的重要关键。过去
期刊
改革开放40余年,我国经济已进入高质量发展时期。2021年12月中央网信办印发《“十四五”国家信息化规划》,提出要推动数字化与绿色化协同发展。党的二十大上,党中央从全局发展出发,提出要加快建设数字中国,发展数字经济,同时也提出要推动绿色发展,促进人与自然和谐共生。数字化发展是高质量发展的重要引擎,而绿色发展则是高质量发展的重要保障,因此探究数字化与绿色化协同发展对我国实现经济高质量发展有着重要的意
学位