复杂数据的聚类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:binsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是在没有类标签等先验知识的前提下根据数据内部特征对数据集进行类别划分,旨在发现新的结构、新的性质和新的关系。随着信息技术的发展,聚类分析的应用领域越来越多。与此同时数据的复杂度也在不断增大(数据集中各子集的形状多样,既有凸数据子集也有非凸数据子集,数据集中类的大小相差较大,以及数据分布疏密程度相差较大等情况),以至于许多现有的聚类算法聚类效果不佳,究其原因,主要是因为以下问题:1)类的数目难以确定;2)算法对参数较为敏感;3)噪音点影响聚类结果;4)任意形状、类大小不平衡以及密度分布不均衡的数据集需要考虑的影响因素较多。针对以上问题,逐次求解,设计了基于密度峰值的自动获取类数目的聚类算法,无参数的不平衡数据自适应聚类算法和基于互近邻的多中心任意分布数据聚类算法。本篇文章的主要研究成果和创新点如下:1.针对大多数现有的聚类方法都需要提前知道类的数目,密度峰值聚类算法[1]给出了一种新的方案,由用户根据二维决策图上数据点的位置选出类中心。这种算法虽然给出了选择类中心的一些准则,但这需要用户依靠经验去判断选择类中心点,不同的用户选择,会产生不同的聚类结果,算法性能依赖于用户经验。为此,提出了一种基于密度峰值的自动确定类数目的聚类算法。首先,设计了选择初始类中心点的方案;接着,分配剩余数据点得到初始类;受尺度空间理论的启发,对初始类中心进行合并,并统计合并后类的数目,如此重复,直到合并成为一个类为止。最后,将类的数目持续不变次数最多的类数目确定为最终的类数目,对应的类即为最终的聚类结果。算法能自动获取类数目,且排除了噪音点的影响,实验显示算法对凸数据集和非凸数据集都有良好的聚类效果。2.针对现有聚类算法在对不平衡数据集聚类过程中容易将小类处理成噪音点,或将大类中的数据错误分配给小类等的情况,设计了一种基于密度峰值的无参数不平衡数据聚类算法。对于密度峰值聚类算法需要指定距离阈值的问题,提出了自适应确定距离阈值的方法,接着针对不平衡数据集提出了新的局部密度计算方法。算法设计了能更好地区分噪音点和小类中心的三维决策图,解决了小类被处理成噪音点的问题。在此基础上,设计了一个初始子类构建方案,该方案能自动生成初始子类。其次,提出了一种子类的更新策略,可以识别和去除假的子类中心。子类思想防止了在聚类过程中将大类的数据错误分配给小类的问题。第三,设计了子类合并方案,方案可以自动合并更新后的子类,形成最终的类结果。实验显示,与同类算法相比,该算法在不平衡数据集和平衡数据集上都有好的聚类效果,并且时间成本得到了明显降低。3.针对现有算法对任意形状及密度分布多样的数据聚类效果不佳的问题,提出了一种基于互近邻的多中心聚类算法。算法使用多个中心表示一个类,旨在有效地聚类任意分布的数据。首先设计了一种基于互近邻的中心点发现算法,该算法可以在没有任何参数的情况下自适应地找到中心点。因为中心点是根据数据点的互近邻进行查找的,与数据点之间的距离和密度无关,所以该算法适用于密度分布多样的数据集。接着,设计了一种基于中心点连接的子类构建方案,方案通过连接落在互近邻区域的多个中心点来构建子类,形成中心点的最大连接,因此算法对于非凸形状的数据集聚类是有效的。最后,根据子类之间的重叠度和子类间的距离两个指标来度量合并子类的难度,根据合并子类的难度,设计了一种自动确定类数目的算法,找到合并难度值发生最大变化的类的数目即为最终的类数目,聚类结果即为最终的结果。与现有算法相比,该算法利用互近邻自动获取类中心点,并且不需要任何参数,能有效地对任意分布的数据集进行聚类。
其他文献
追踪候鸟的迁徙活动是全面认识其生活史年周期的重要途径。中杓鹬(Numeniusphaeopus)在全球广泛分布,但在东亚-澳大利西亚候鸟迁飞区的迁徙活动一直缺乏追踪研究。2018年2月,在澳大利亚西北部的布鲁姆为捕捉到的中杓鹬成鸟佩戴平台发射终端或全球定位系统-全球移动通讯系统追踪器,以确定其迁徙日程、迁徙路线以及迁徙停歇地和繁殖地的地理位置。我们从成功追踪的7只个体获取了6 378条精度高于1
期刊
学位
高光谱图像具有光谱分辨率高、图谱合一的特性,已经在民用、军事等诸多领域得到了广泛应用。随着需求的不断增长,大量的遥感应用要求图像同时具备高光谱分辨率和高空间分辨率。然而在实际中,高光谱图像往往呈现出较低的空间分辨率,这限制了高光谱图像的精确解译和应用效果。全色传感器可以提供高空间分辨率的全色影像。因此,通过研究高效可靠的高光谱图像融合方法,将高光谱图像与全色图像进行融合以实现高光谱图像空间分辨率的
学位
现实世界中的大量信息都可以表示为字符序列的形式,而求解多个字符序列最长公共子序列(MLCS)问题作为数据挖掘的一种具体技术,可以对大量的字符序列进行分析和处理,以便找到和发现有用的知识以及它们之间的内在联系,并将其应用于生物信息学、模式识别、文件比较和信息检索等领域。然而现有一些算法还普遍存在效率不高的问题,只能用来处理较为简单的MLCS问题。随着MLCS问题规模的增大,这些算法对运算时间和内存空
学位
现代电子装备系统易受到电磁脉冲的干扰甚至毁伤,为了评估电子装备系统在电磁脉冲干扰下的安全性及电磁敏感性(Electromagnetic Sensitivity,EMS),保证系统的正常工作,需要应用电磁仿真技术来预测系统在电磁脉冲干扰下的耦合响应特征。然而由于电子装备系统级平台的集成度高,其电磁耦合途径复杂,电磁耦合要素种类众多,单一的电磁仿真方法无法实现整体系统级平台的电磁干扰耦合仿真,为此,本
学位
高光谱遥感是一种光谱学与成像理论有机结合的先进遥感技术,能够获取可见光至短波红外甚至中红外和热红外谱段范围内,分辨率达到纳米级的高维影像数据,包含丰富的几何、辐射和光谱信息,自20世纪80年代以来一直是遥感领域的研究热点,目前在生态监测等对地观测任务以及月球、火星矿物分析等深空探测任务中已经得到广泛应用。例如,我国对地观测高分五号、探月工程嫦娥一号、火星探测天问一号等卫星均搭载了高光谱成像仪,表明
学位
20世纪80年代以来,传感器技术、数字电子技术和计算机处理能力等的提升推动了高光谱成像技术的发展,它将反映地物空间结构的图像和辐射特征的光谱相结合,在军事侦察、矿物勘测及文物考古等领域得到广泛关注,具有十分重要的理论研究意义和实际应用价值。高光谱图像目标检测旨在基于先验光谱或空谱信息对高光谱数据进行定量化解译分析,进而判断每个待测像元中存在感兴趣目标的置信度。受成像条件、传感器噪声、地物组成及特征
学位
随着国际形势的日益严峻,电子战成为各国军事重点,而作为我方探测核心的雷达设备极易受到敌方大功率微波武器攻击致盲,因此在雷达前端需要限幅保护。而传统的以Si、Ga As二极管为主的限幅模块已经面临瓶颈,难以满足大功率应用的需求。氮化镓(GaN)作为第三代半导体的典型代表,具有禁带宽度大、击穿场强高、电子饱和漂移速度大、可形成高密度高迁移率二维电子气(2DEG)等独特的材料特性优势,非常适合应用在大功
学位
随着信息时代的到来,科学技术的进步,日常生活和工业环境所产生的数据持续增长,如网络监控、车载服务系统等。如何分析和利用这些数据,挖掘其内部含义,使其更好的为人类服务,成为具有挑战的难题。面对这些挑战,人们开发设计适用于不同领域智能系统,并取得相应的成功。本文旨在通过对信息粒构建方法的研究,建立一种通用的粒模型/语言模型。本文将粒计算的概念和思想,应用于时间序列分类和强化学习控制等领域,拓展了粒计算
学位
2008年比特币问世以来,其底层的区块链技术已经从数字化货币发展为影响整个互联网商业模式的核心技术。区块链技术的成熟发展,推动其参与到跨学科研究和实际应用操作中。国内外政府机构、金融科技企业针对自身项目特点,纳入区块链技术,互为融合,以期解决其传统模式的弊端。然而,公有链采用基于哈希计算的工作量证明机制,系统吞吐量低,可用性较差;联盟链由于存在超级节点安全性差。针对上述问题Repu Coin结合公
学位