基于数据驱动的聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yatai1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网时代,每天都产生海量的数据,但是只有从这些数据中挖掘出知识才能发挥这些数据的价值。有监督算法只能用有标签数据训练,导致训练成本巨大,渐渐地难以满足当今时代的需求。然而,基于数据驱动的聚类算法由于使用无标签数据便能训练,降低了对样本数据的要求,近年来得到快速发展,并广泛应用于大数据处理、模式识别、医学诊断、图像聚类等领域。本文对无监督聚类算法展开深入研究,针对不同的数据类型,设计了基于数据驱动的特征提取模块、改进的密度峰值聚类算法以及使用基于数据驱动的特征提取模块的图像聚类算法。主要工作如下:针对传统聚类算法在图像数据上聚类效果差的缺点,设计了基于Resnet的特征提取模块。该特征提取模块使用数据增强方法来获取数据的伪标签,增加了样本的数量且提高模型的鲁棒性;然后,使用对比学习方法根据伪标签设计损失函数。该特征提取模块提取出图像特征后,便可以与一些聚类方法结合,实现对图像的聚类。在学习聚类算法后,设计了一种基于比较方法和K最近邻改进的密度峰聚类算法(CKNN-DPC),降低了超参数选取的难度,提高了算法的精度。CKNN-DPC算法重新定义了局部密度,使算法更容易寻找稀疏分布的类和选择参数。CKNN-DPC算法定义了比较距离,使CKNN-DPC更容易找到正确的聚类中心。然后,CKNN-DPC采用新的两步分配策略,能够更准确地分配剩余数据点。最后实验结果表明,CKNNDPC算法在众多数据集上拥有优于其它聚类算法的实验结果。在图像聚类算法的基础上,设计了基于对比学习和K最近邻的无监督图像聚类算法(CLKNN),有效提高了图像聚类算法的性能。首先,CLKNN使用双数据增强方法得到增强后的图像,为无监督语义提取提供数据。然后,CLKNN设计了双对比损失,在不同的特征空间里分别计算样本之间的相似性和类之间的相似性,大大提升了模型的表示学习能力。最后,CLKNN设计了K最近邻损失来实现对图像的聚类,K最近邻损失通过最大化每幅图像与其最近邻图像之间的相似性来优化模型。通过对比实验可知,CLKNN算法具有优于其它图像聚类算法的性能和效果。
其他文献
庭审网络直播是近年来法院利用新媒体对案件审判全过程公开的新方式。自2011年以来,庭审网络直播在全国各级法院得到普遍推广,全国共有3501家法院接入“中国庭审公开网”进行庭审网络直播。根据我国现行2016年《中华人民共和国人民法院法庭规则》中的第十一条规定:“依法公开进行的庭审活动,具有下列情形之一的,人民法院可以通过电视、互联网或其他公共媒体进行图文、音频、视频直播或录播”,涉及三种案件:(一)
学位
龙门机器人具有结构简单、作业空间大、易于控制的优点,可以完成码垛、卸垛、物料搬运、物料分拣和装配等多种任务。然而,目前高精度龙门机器人往往存在制造成本高、柔性作业能力差的问题,难以满足无人工厂对物料搬运和装配的需求。鉴于此,本文针对龙门机器人视觉高精定位技术进行研究,主要内容如下:首先,为了保证相机标定和视觉定位的稳定性和准确性,搭建了高精度相机标定和视觉定位硬件系统,并基于视觉定位硬件平台采集了
学位
部编版语文教材作为我国现行最为权威的语文教材,是进行语文学习的重要载体。而教材中的编排用字是构成文本内容的基础,也是学生学习其他文化知识的根基。其用字的科学规范编排对于学生而言意义深远;且《义务教育语文课程标准(2022年版)》明确规定了3500字是整个义务教育阶段的学习目标,需要引起足够的重视。基于以上思考,将本文研究对象确定为当前义务教育阶段所使用的部编版语文教材用字研究上。本次研究通过建立小
学位
古诗词是中华民族灿烂的文化瑰宝,是传统文化的传承之地。学习古诗词有利于掌握祖国语言文字特点,发展提升逻辑思维,提高审美鉴赏能力,更有利于对中华民族优秀传统文化的深入理解,加强文化自觉,提升文化自信。引导学生学好古诗词是语文教师义不容辞的责任与义务。随着部编版语文教材的问世,古诗词的比重在义务教育阶段有了非常明显的提升,国家意志对于古诗词的学习和推广不言而喻。随着信息化技术的不断增强,现代学生已然生
学位
电磁发射技术是继传统火炮发射之后出现的一种新概念发射技术,不存在传统火炮点火时产生高温火焰和大量烟雾的情况,具有隐蔽性好等优点。作为电磁发射的最早形式,电磁线圈发射装置力学结构合理,其具有的弹丸和发射管道无机械接触不烧蚀、发射频率高且可控、使用寿命长、发射效率高等诸多优点必将体现在未来的军事应用之中。本文主要对考虑重力因素的多级同步感应线圈发射过程进行研究,利用均匀试验设计方法以及模拟退火算法、改
学位
随着移动机器人同时定位与建图(Simultaneous Localization and Mapping,SLAM)技术的发展,传统单一传感器因自身存在的局限,如相机对光过于依赖,惯性测量单元(IMU)存在累积误差等,已经逐渐无法满足现实对SLAM的需求。针对上述问题,本文提出了基于因子图优化的多传感器融合的定位算法;进一步为了解决点云地图无法直接用于移动机器人导航与避障研究的问题,提出了基于3D
学位
古诗文在学界有多重定义,本文中主要指中国古代的诗歌和散文。其历经岁月的沉淀传承至今,是我国传统文化的历史上不朽的传奇,是中华民族最为宝贵的历史文化代表。时至今日,众多具有审美艺术价值的经典古诗文课文经过教育学者多年来的反复筛选与整理,越来越贴合学情,成为现如今高中语文教学的重点、难点。然而,笔者在实习过程中,深入高中古诗文的教学课堂,经过多方面的调查与探讨,发现以下一些现象:一是学生在学习过程中普
学位
随着海洋被人类广泛关注,水声传感网络现如今是探索海洋的重要工具,而定位是水声传感网络应用的基础。在大数据时代的背景下,数据的隐私防护受到越来越多的关注,水声传感网络隐私防护定位在海洋环境的通信和控制中扮演了关键角色。然而,水下介质的开放性和不均匀特性使定位问题的解决更具挑战性,隐私防护方法也面临着巨大的挑战。因此,本文主要针对水声传感网络的隐私防护定位问题,设计隐私防护通信协议,利用深度强化学习算
学位
感应电机高性能调速系统需要安装编码器获取精确的转速信号,但是使用转速编码器增加系统成本,且安装受环境因素影响较大,因此无速度传感器控制方法成为研究热点。但是当感应电机在低速运行时,无速度传感器控制存在转速辨识精度低,对电机内部参数变化敏感以及稳定性问题。本文针对感应电机无速度传感器控制系统在低速运行时存在的上述问题进行研究。首先,针对滑模观测器无速度传感器系统低速运行时的稳定性问题,提出了一种新型
学位
在新课改的浪潮中,特级教师余映潮提出了“板块式”教学思路。该教学思路为各位语文教师创新教学方法、丰富课堂内容、提高课堂的活力提供了借鉴和参考。该理念自提出以来,不论是余映潮老师本人还是其他语文教师都积极地将其运用到小说、诗歌、散文的阅读教学中,并取得了良好的成效。但是,却未有人尝试用“板块式”教学思路组织戏剧教学,这正为笔者此次研究提供了灵感。本文研究立足于余映潮老师的“板块式”教学思路,企图寻找
学位