快速密度峰值聚类算法研究与应用

来源 :华侨大学 | 被引量 : 0次 | 上传用户:meirumen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于存储技术的进步和日常生活工作中不断产生各种数据,加快了大数据时代的到来。人们可以通过对大量的数据进行分析和挖掘,得到所需要的有价值的信息。然而目前处理海量数据的速度仍难以满足人们的需求,因此从大规模数据中高效的挖掘出人们所需要的有价值的信息成为了数据处理的一个难题。机器学习在解决这类问题中发挥了重要的作用,其中聚类算法是机器学习十大经典算法之一。密度峰值聚类算法(DPeak)是目前热门聚类算法的一种。该算法具有思想简单、参数唯一且能聚类成任意形状簇等优点。凭借这些优点,DPeak一经提出就吸引了大量科研人员的关注。虽然DPeak有许多优势,但是其时间复杂度为O(n~2),难以满足海量数据的处理。因为该算法中ρ和δ这两个量都是通过复杂度为O(n~2)的蛮力算法得到的,故计算当中存在大量的冗余计算。本文对DPeak算法进行了深入的分析,并在总结前人的基础上取其精华弃其糟粕,提出了快速密度峰值聚类算法。该算法显著的提高了DPeak算法处理大规模数据的速度。本文主要包括以下几个方面的内容:(1)分析了DPeak算法的性质,对其在整个聚类算法体系中位置进行了讨论。将DPeak与k-means、DBCAN、谱聚类算法、近邻传播聚类、mean shift这5个经典聚类算法进行比较之后,发现DPeak算法与mean shift算法十分相似。因而本文提出了一个猜想:认为DPeak是一种特殊的mean shift算法,是否可以在mean shift框架下解释,还有待进一步研究。(2)密度峰值聚类算法(DPeak)算法复杂度为O(n~2),不适用于大规模数据。因此,本文提出了一个简单且快速的DPeak,即FastDPeak。该算法用覆盖树算法加快了密度ρ的计算。另外,又将δ值的计算从全局搜索降为局部搜索,使得δ的计算时间复杂度降为O(n)。综合而言,FastDPeak算法的复杂度为O(nlog(n))。在多个数据集上实验结果表明,FastDPeak是一种有效的、性能优于其他DPeak变体的算法。对于数据处理和DPeak速度方面的提升有重要意义。
其他文献
随着高速公路的不断建设,路网逐渐被完善,高速公路网已经成为我国的经济命脉,收费系统作为高速公路建设的重要组成部分,记录了大量车辆的收费数据。随着大数据分析与人工智能
与传统蜂窝通信网络不同,无线ad hoc网络不具有基础的骨干设施,其节点一般通过洪泛的广播方式进行通信,这不仅会产生大量的消息延迟和冲突,甚至会产生广播风暴,从而增加网络
纳米激光,是指由纳米线等纳米光电材料作为谐振腔,在光激发或电激发下发射出的激光。发射纳米激光的激光器的尺寸往往只有数百微米甚至几十微米,直径更是达到纳米量级,是未来
近年来,随着科技的发展,各种网络平台上出现了源源不断的海量视频数据。面对庞大的数据量,处理和分析这些视频数据给计算机视觉与模式识别领域中的视频存储以及视频内容分析
语音交互是重要的自然人机交互方式之一,这种交互方式更加接近人与人之间的交互,在人们的生活、工作、学习、娱乐等领域应用越来越广泛。但是语音信号对于环境较为敏感,而夹
光子带隙型光子晶体光纤(Photonic Band Gap Photonic Crystal Fiber,PBGPCF)由于其气孔结构具备作为吸收气室的特性,已经成为光纤传感领域的研究热点。通过在PBG-PCF光纤中
第三代宽禁带(3.37 eV)半导体材料ZnO具有环境友好、缺陷密度低、抗辐射能力强等优点,被认为是制备紫外光电探测器的理想候选材料。针对ZnO基紫外光电探测器光吸收率较低的问
信息通信技术的飞速进步,极大地拓展了无线电业务,导致稀缺的频谱资源利用率不高、干扰冲突问题更加严重,高效完成频谱监测对解决上述问题起着关键作用。由于受传统手段的限
随着信息与互联网技术的迅猛发展,数据呈现爆炸式增长,对数据进行挖掘与分析以获取更多价值的需求也不断增加。本文针对大数据挖掘分析任务的特点,对大数据分析任务时间预测
高功率、窄带宽、高集成化的单频光纤激光器,以及波长可选或可同时输出的多波长光纤激光器在光通信、高精度光谱和波分复用等领域都具有广泛的应用。谐振腔作为激光器的核心