基于邻近搜索技术的快速密度聚类算法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:achun5808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络通信技术的高速发展,各种信息化和数字化技术与社会生活的方方面面联系的越来越紧密,无论是对我们的生产、生活还是工作和思维等都引发了巨大的影响,我们已经进入了大数据时代。面对海量数据,当前一个十分重要的课题就是如何能够将这些海量数据转化为由价值的信息。机器学习、数据挖掘技术在解决这类问题中发挥了日益重要的作用。聚类分析是机器学习研究的一个重要内容,目前已经被广泛应用于图像处理、推荐系统、医疗诊断等多个领域。聚类是一个无监督的过程,聚类算法的目的是将输入的数据集基于某种相似性度量准则划分为若干个语义一致的簇。DBSCAN是最为重要的一种基于密度的聚类算法,它不需要预先指定聚类个数,可以在含有噪声的数据中识别出复杂分布的聚类。虽然DBSCAN算法有很多的优势,但是其时间复杂度为O(n~2),无法高效的处理大规模高维数据。其根本原因在于DBSCAN在判断每个点是否为核心点时,需要对每个数据点做近邻搜索,而其中存在大量冗余计算。本文对造成DBSCAN冗余计算的根源进行了深度分析,并在总结前人工作的基础上,提出了基于邻近搜索技术的快速密度聚类算法(NQ-DBSCAN),有效提高了DBSCAN算法处理大规模高维数据的性能。本文主要包括以下几个方面的内容:(1)首先,对DBSCAN的优缺点进行了深入探究,总结出DBSCAN在近邻搜索中存在大量的冗余计算,造成了该算法复杂度过高,无法处理大规模数据。(2)其次,对于DBSCAN相关改进算法的改进思路和效果也进行了深入分析,如IDBSCAN、FDBSCAN、LSH-DBSCAN、STDBSCAN、Fast-DBSCAN和ρ-Approximate DBSCAN等,发现这些算法处理相对高维的数据时性能不够理想。(3)最后,对于DBSCAN聚类速度较慢的问题,提出了改进算法NQ-DBSCAN。该算法使用邻近搜索的思想,通过将部分满足条件的数据点直接标记为离群点或者核心点,过滤了大量的冗余近邻计算,从而加快了聚类速度。从理论上确定了邻近搜索的上限和下限,确保NQ-DBSCAN和DBSCAN有一致的聚类结果。通过在人工合成数据集和真实数据集上的实验表明,NQ-DBSCAN的算法效率有很大的提升,尤其对于高维数据,随着维度增加算法性能退化缓慢,且对带噪声数据适应性更好。
其他文献
最近黄金涨得有点飙了。市场最新交易情报显示,黄金交易价格每盎司已经冲破1500美元。8月22日,现货黄金价格震荡回落,暂时回归至1500美元下方。$$针对黄金的狂飙,有分析认为,全球
报纸
研究目的:诸多证据表明癌症实质上是涉及细胞能量代谢紊乱的代谢性疾病。基于逆瓦氏效应理论,本研究通过构建一种新的共培养体系,对比正常口腔成纤维细胞和肿瘤成纤维细胞之
近期,全国煤矿较大以上事故多发频发,安全生产形势骤然严峻起来。2018年12月15日,重庆能投集团渝新能源有限公司逢春煤矿副斜井发生较大运输事故,造成7人死亡;12月24日,陕西延安市
报纸
<正>柯云路的《新星》完稿于1984年,其描写的历史时段是1981年至1982年①。这是中国官方公认的改革的第一阶段,即从人民公社到农村联产承包责任制、包产到户的时期。正是在这
建筑工程管理是指对建筑工程施工现场中材料、机械设备及施工人员等管理的过程,其目的是尽可能避免施工中危险事故、质量问题、施工问题等的发展,最终保障和提高建筑工作质量
中国古代神话是远古人民对无法解释的周边事物的想象和幻想的产物,是古人懵懂思想的开始和远古文明的体现。它虽然久远,但并没有过时。中国古代英雄神话所表达出的悲剧色彩、
目的 检测正常宫颈组织、宫颈癌组织及宫颈癌细胞系中SOX11基因的甲基化状态并探讨甲基化状态与SOX11基因表达的关系。方法 亚硫酸氢盐测序法及TA克隆分析正常宫颈、宫颈癌组
用还原法制备了海绵状的铂纳米粒子,研究了不同的还原剂、保护剂和温度对铂纳米粒子的影响。X射线衍射和扫描电子显微镜SEM表征结果指出,铂纳米颗粒粒径小,粒径分布范围窄,平
近几年的土地执法动态巡查信息化管理建设成果改变了传统手工巡查方式,极大提高了及时有效地制止和查处违法用地及违法建设行为的效率和质量。但是随着经济与社会的发展,对国
目的研究妊娠晚期羊水Ⅲ度行剖宫产对母婴妊娠结局的影响。方法选择2014年6月-2017年6月本院收治的100例妊娠晚期羊水Ⅲ度患者作为研究对象,根据分娩方式分为对照组(40例)和