改进的密度峰值聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hyslst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于快速搜索和发现密度峰值的聚类算法(简称基于密度峰值的聚类算法)是近年最热门的聚类算法之一。由于其具有可快速找到聚类中心点、可处理任意形状的数据集、所需要参数较少等优势,被应用于不同的领域,因此广受研究学者的关注,具有很高的研究价值和应用前景。然而,基于密度峰值的聚类算法存在以下缺点:对截断距离选取较为敏感,无法自动识别聚类中心,未对噪声点的影响进行提前消除,数据点分配策略存在连带错误。因此本文对基于密度峰值的聚类算法的局限性进行了创新性改进,提出了两种相应的改进算法。本文的主要工作如下:(1)针对基于密度峰值的聚类算法中距离测度的计算方法忽略数据间的相关性、对截断距离的选取敏感、无法自动识别聚类中心的问题,本文提出一种自动获取局部聚类信息的密度峰值聚类算法。首先对数据点间距离进行重新定义,利用变异系数作为加权系数,克服原始算法在计算距离测度时忽略数据点的相关性的缺陷;接着结合信息熵的相关概念对截断距离d_c进行选择,从而达到自适应获取算法最合适的截断距离值,克服了基于密度峰值的聚类算法人为选择截断距离带来的影响;然后根据得到的数据点的信息,获得数据集的局部聚类中心点集合,实现局部聚类;最后根据局部类的边界区域信息,确定潜在的待合并类对,根据一定的条件对局部类进行合并,完成整个数据集的数据聚类。在多个人造数据集和UCI真实数据集上,对本文提出的自动获取局部聚类信息的密度峰值聚类算法、基于密度峰值的聚类算法、k-均值算法和ADPC算法进行对比实验,验证了新算法的有效性和准确性。(2)针对基于密度峰值的聚类算法中在计算局部密度时没有考虑局部数据结构、没有对噪声点的影响进行提前消除、数据点分配策略存在连带错误的问题,提出了一种基于局部近邻的密度峰值聚类算法。首先利用新的局部邻域信息来计算局部密度,克服原算法未考虑局部结构信息所带来的聚类中心选取偏差问题;接着对整体算法进行改进,增加对噪声点的事先判断,减轻数据计算的工作量;最后根据新定义的局部密度,对初始的密度峰值点及弱势邻居进行定义,基于这些定义,对数据点进行整体聚类。在多个人造数据集和UCI真实数据集上,通过对基于局部近邻的密度峰值聚类算法、ADPC-KNN算法、基于密度峰值的聚类算法、近邻传播算法以及k-均值算法进行对比实验,验证了新算法的有效性和和准确性。
其他文献
员工自愿离职是每个组织都面临的最严重的问题之一,它会给公司带来高昂的成本。如今,跳槽成了每个公司都会害怕的一个词,因此,这种行为背后的原因可能是什么?货币价值是否足以影响这种跳槽行为。本研究旨在明确离职的过程以及对职业生涯选择的影响,反过来理解员工认为“我最好辞职,以及最适合我的工作是什么?”的原因本文旨在强调和研究泰国劳动力对实际自愿离职的影响以及不同世代职业选择的影响。研究还分析了人们对职业偏
从女性恶性肿瘤发病比例和相关统计数据来看,女性恶性肿瘤中占比最高的就是乳腺癌。乳腺癌预防与治疗的核心环节在于早发现、早治疗。乳腺钼靶成像技术由于其获取速度快、成本效益高、对身体伤害小等优点,是效果较好的乳腺癌筛查技术之一。其以斜位、轴位为切入点投影乳房,以此将乳腺钼靶图像获得,医生再根据图像观察是否有癌变的迹象。但是,放射科医生对图像的判别过程主要依赖自己的专业素养和长期实践经验,这个过程具有一定
偏振复用相干光正交频分复用(PDM CO-OFDM)技术结合了偏振复用技术、相干检测技术和正交频分复用技术,具有信道容量大、传输距离长、传输速率快、频谱效率高、色度色散(CD)和偏振模色散(PMD)容忍度高的特点。但是,PDM CO-OFDM系统中器件的非理想性会导致OFDM符号的同相信号和正交相信号间的幅度和相位不平衡。为了解决PDM CO-OFDM系统IQ不平衡估计问题,本文主要研究了系统的训
督查,是督促检查的简称,是推动党委、政府重大决策部署得以贯彻落实的重要途径,是转变党员干部工作作风的重要手段,是密切党与群众关系的重要纽带。督查的内容涉及了党委和政府工作的方方面面。其存在的问题,以肇庆市端州区督查工作发展现状来看,有以下几点:一是对督查工作的认识存在错位;二是督查工作仍然“无法可依”;三是人手不足,机构设置不够完善;四是工作量大,督查容易流于表面;五是督查部门存在交叉责任不清地带
随着人类社会的发展,陆地上的资源不断被开发,人们对海洋中的丰富资源的需求显得更为迫切,为了进一步探索海洋环境研究海洋科学,各类声呐探测系统应运而生;其主要完成对水下目标的探测、识别、定位等功能,可以帮助人们探索未知水域的水下环境与生物等。同时伴随着科学的进步,人类对海洋中各种未知领域的探索也在逐渐深入,因此对水下探测系统的功能也就提出了更高的要求。本文主要完成了一款矢量目标探测系统上基于Zynq的
在线知识社区作为个人和企业的巨大动态知识库,是社区用户进行知识获取、交换和创造的重要场所。在互联网和大数据时代,为了有效地组织和管理信息资源,在线知识社区使用不同的资源标签方法来开发它们的标签系统。目前,在线知识社区以传统分类法和大众分类法为基础,开发了四种混合标签方法:独立共存、大众分类法导向的传统分类、传统分类法导向的大众分类和大众分类法本体/有层次的大众分类。本文在现有四种标签方法的基础上,
传统外科手术中,由于肿瘤组织的硬度通常会发生显著变化,医生可以通过触诊来获取肿瘤组织的位置、大小及形状等病理信息,辅助确定切除范围。近年来微创手术以其手术创伤小、术后恢复快、手术风险小等优点发展十分迅速。随后又出现了机器人辅助微创手术,它的优点是运动定位准确、手术器械振动小、手术时间短等。但在微创手术中,由于医生无法用双手触摸手术部位组织,传统的触诊方式不再适用,术中对肿瘤进行定位成为一大难点。同
珠三角城市群经济开放程度相对较高,人口流动规模也日益壮大,对城市的住房需求越来越大,地产市场逐渐活跃,开始出现房地产投资"热潮",由此引发部分城市房价快速上涨。另一方面,随着我国城镇化水平的不断提高,城市人口数的増长方式开始从以人口自然増长为主的増长方式向以人口机械增长方式为核心的増长方式转变。流动人口占比较高的珠三角地区,房价己成为当前大众最为关注的热点之一。本文基于珠三角9个大中城市2000-
就业是经济的“晴雨表”,也是社会的“稳定器”。日趋严重的失业问题已成为困扰世界各国各地区经济社会协调发展的炙手问题。失业保险制度作为抑制失业、促进就业,保障失业者基本生活的社会保障主要项目,在稳定和扩大就业中推波助浪,促进劳动力再生产。重庆市正处于产业结构优化升级、适应新常态的关键期,由经济结构调整引起的城镇失业问题日渐突出,而失业保险基金支出重心仍在“保基本”上,难以适应就业严峻形势下失业人员再
在当今的企业发展运行过程中,人力资源已经成为制约企业发展的决定性因素。人力资源的分配状况是否有效、科学,对于企业其他资源的分配与使用具有直接作用,在很大程度上关系到整个企业的优化运营。所以,人力资源的优化配置在全球范围内逐渐引起人们的重视。MX公司为河北省某国有资本运营和政策性投资平台下属全资子公司,为该集团基金和资本管理平台。MX公司自成立以来,较快组建基金投资平台、业务发展取得较好成绩、经营管