【摘 要】
:
2019年,一种需要指定聚类数和均值数的K-多均值聚类算法被提出。此算法是K-means算法的扩展,一方面运用了多均值聚类的思想,为每个类设置多个均值,从而解决K-均值算法无法处理非凸数据集的问题,另一方面借鉴K-means算法的理论,把多均值数据集的聚类任务转化成一个优化问题后,迭代更新每个样本点的所属均值和所属类,从而解决多均值聚类算法的均值融合问题。K-多均值算法相比同类算法而言,聚类效果更
论文部分内容阅读
2019年,一种需要指定聚类数和均值数的K-多均值聚类算法被提出。此算法是K-means算法的扩展,一方面运用了多均值聚类的思想,为每个类设置多个均值,从而解决K-均值算法无法处理非凸数据集的问题,另一方面借鉴K-means算法的理论,把多均值数据集的聚类任务转化成一个优化问题后,迭代更新每个样本点的所属均值和所属类,从而解决多均值聚类算法的均值融合问题。K-多均值算法相比同类算法而言,聚类效果更好,用时更少。与K-means算法一样,K-多均值算法同样需要指定初始均值,并且初始均值的位置会导致聚类结果波动。此外,K-多均值算法可以很好地对简单数据集进行聚类,但在数据日益复杂的今天,它无法很好地完成复杂数据集上的聚类任务。这些不足导致K-多均值算法在解决实际问题时,面临诸多困难。因此,决定对此算法进行改进和扩展,不仅增强其实用价值,也拓宽其应用场景。本文针对此算法的研究与应用工作包含以下几部分:(1)针对K-多均值算法的聚类结果受初始均值影响的问题,本文提出一种基于均值数的改进K-多均值算法。新算法首先依据聚类数依次对各特征数据进行划分,通过观察各特征的数据分布直方图,统计出各特征的影响力;接着结合样本数和聚类数所提供的信息,确定出均值数;然后基于各类内样本数与均值数的关系,通过使用K-均值++算法先对样本总体进行聚类,再对聚类结果中各类进行聚类的方法,得到初始均值;最后通过求解目标函数完成对样本总体的划分。在多个人工数据集和UCI真实数据集上的对比实验表明,本文提出的基于均值数的改进K-多均值算法具有更优异的聚类结果。(2)针对目前聚类集成算法发展迅速,但基于多均值聚类的聚类集成算法较少的问题,本文提出一些基于多均值聚类算法的选择性聚类集成算法。首先基于K-多均值聚类算法结果中所蕴含的聚类数,均值数和样本数间的关系,提出了一种聚类评价指标;接着将此指标与常见的聚类算法结合,提出一些聚类结果选择算法;最后将这些聚类结果选择算法和图割算法相结合,提出一些选择性聚类集成算法。最后在多个UCL真实数据集上进行实验,首先验证所提指标的有效性,其次对比这些聚类结果选择算法的性能,最后对比选择性聚类集成算法的性能,同时衡量聚类结果选择算法对聚类结果的影响程度。(3)将本文提出的改进K-多均值算法和聚类评价指标应用于用户画像的实际问题中。首先基于研究目的确定研究目标群体;接着收集相关数据,对数据进行处理后,构建目标群体数据集;然后通过手肘法和聚类评价指标确定的目标群体聚类数,之后利用改进K-多均值算法得到聚类结果。最后对聚类结果进行分析,总结目标群体内各类的标记,并基于研究目的提出对应策略。通过本次实际应用,验证了改进K-多均值算法和聚类评价指标的实用价值。
其他文献
近年来,步态识别领域的研究受到了学术界的极大重视。早期的步态识别算法通常基于计算机视觉或压力传感器,随着微机电系统(Micro Electro Mechanical System,MEMS)技术的发展,基于MEMS惯性传感器进行步态识别已经成为主流。步态识别是从惯性传感器数据中提取不同步态类型的特征,以识别受试者的运动状态。步态识别算法通常基于机器学习或深度学习,目前的研究大多采用卷积神经网络提取
随着计算机硬件能力的提升和计算机视觉理论体系的不断完善,SLAM技术得以快速发展。目前视觉SLAM系统中以基于特征点法的前端作为主流,特征点法鲁棒性好,对环境、光照、动态物体不敏感,是现在比较完善的前端方案。但是当图像中提取不到足够的特征信息或者特征匹配效果较差时,系统后续的位姿估计准确度会受到很大的影响,甚至出现跟踪丢失的现象。针对特征点法存在的问题,本文对其做出改进,并提出针对多特征场景的视觉
在智能化立体车库中,RGV作为重要的车辆运载装备,其运行精度、稳定性要求较高。传统RGV控制主要关注RGV软启动,定位准确性,对于柔性加减速控制关注较少。当前的加减速算法包括直线加减速法、指数加减速法、多项式加减速法、抛物线加减速法、S曲线加减速法等算法,存在加速度突变,不能体现柔性加减速的思想,或者算法复杂需要消耗控制器大量逻辑运算时间,抑或固定在控制器参数不方便调节。为此建立基于PLC控制的两
随着航天技术的发展和相关应用的深入,卫星等空间目标的数量日益增加,空间目标监测的重要性不断提高。而随着空间态势感知能力的提升,监测任务已不再局限于探测和跟踪,在轨姿态作为反映空间目标运动状态的重要参数,也受到了越来越多的关注。逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)具有全天时、全天候、远距离探测的能力,可以对目标进行高分辨率二维成像,获取目标的形
伴随着电子信息技术的高速发展,无人作战飞机(UCAVs)凭借其出色的作战能力和低维护成本,成为了世界各国在信息战上的焦点。无人机自出现后已经改变了现代战争形式,也已经发展出多种多样的军事用途,而具有低成本特性、能够协同作战的无人机集群将在未来战争中发挥优势,是未来战争中的关键。而未来战场中信息量爆炸,无人机能否获得有效的战场态势信息,形成有利的决策是无人机对抗研究中的基础和重点。应用强化学习方法的
数字图像是以二维数字像素组形式表示的图像类型,因其具有信息质量高、传输能力强、处理相对简单等特点而在众多领域得到了广泛应用,已成为日常生活中不可或缺的信息表达方式之一。近年来随着各种图像编辑软件的不断涌现,人们对图像的修改与编辑越来越容易,甚至能够轻松实现对图像内容的篡改与伪造,图像盗用、侵权等问题与日俱增,这对图像版权的保护无疑是一种巨大冲击。如何高效检测篡改图像并防止二次确权已成为图像内容版权
无人机被广泛应用在民用和军用领域的同时也对公共安全和航路安全等构成威胁,因此对无人机目标智能感知技术的研究具有重要的现实应用迫切需求。热红外成像设备由于具备全天时的监视能力因此被广泛用于监测无人机,然而在远距离红外成像条件下,无人机目标特征微弱且很容易受到复杂背景的干扰,这对无人机的鲁棒检测带来了严峻的挑战。传统的目标检测方法对无人机目标的特征表征能力和知识利用有限,对复杂真实场景感知能力差。因此
随着数字技术的发展,数字视频的应用和需求日益增大;然而视频采集常常受成像系统以及环境等因素的影响,导致视频分辨率较低而无法满足需要。基于软件方法的视频超分辨率重建技术能够将低分辨率视频帧融合成较高分辨率的图像,成为近年来计算机视觉方向的研究热点。目前基于深度学习的视频超分辨重建算法大多依赖帧间对齐而忽略了帧间时序相关性。本文从注意力机制的角度出发、融合时空信息,提出基于时空注意力机制的视频超分辨率
随着基于位置服务(Location-Based Service,LBS)的应用日益广泛,位置数据的规模也急剧膨胀,本地服务器负荷接近极限,将数据外包给具备海量存储空间和强大计算能力的云计算平台成为必然趋势。位置数据与个人隐私高度相关,用户通常将数据加密后上传至云端,从而预防云端获取任何有效信息,但是数据加密后不利于用户进行检索。因此,一个能够同时保障数据机密性和可用性的云端安全检索方案,可作为位置
近年来,由于互联网数据的爆炸式增长和多样化特点,跨模态检索成为了一个研究热点。跨模态检索就是利用一种模态类型的数据检索另一种模态类型的数据,可以帮助人们快速有效的利用不同媒体数据。哈希学习方法具有存储成本低、查询速度快的优点,利用哈希学习方法进行跨模态检索可以在一定程度上提高检索性能。然而,目前利用哈希学习进行跨模态检索的方法存在两个问题:一是现有的跨模态哈希方法只学习了数据的全局特征,全局特征表