基于密度的聚类算法研究

被引量 : 0次 | 上传用户:xiaoPhaiM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于密度的聚类方法在聚类分析技术中占有很重要的地位,在金融、市场营销、信息检索、信息过滤、科学观测与工程等各个领域广泛应用,是聚类分析中的研究重点。本文对基于密度的聚类算法进行了研究,并以DBSCAN(Density-Based Spatial Clustering of Applications with Noise)为基础,提出了改进算法。基于密度网格聚类方法是基于密度聚类方法与基于网格聚类方法的融合,结合两种聚类方法的优点,本文提出了一种改进的基于网格的密度聚类方法。本文主要在以下几个方面展开了研究:(1)首先对数据挖掘技术以及聚类分析技术的研究与发展进行了综述,阐述了聚类分析的基本原理以及数据结构,详细介绍了常用的聚类分析技术,并选择性的介绍了数据预处理方法。(2)针对DBSCAN的参数敏感性以及对密度分布不均数据集难以获得较好聚类效果的情况,本文提出了一种基于区域比例的改进算法。算法使用点的区域分布来度量点的密度,并定义候选核心点来提高簇的搜索效率。算法中使用基于密度的离群点检测方法LOF(local outlier factor)来检测数据集中的离群点。(3)基于网格的密度聚类方法具有基于网格方法聚类时间独立于数据集大小的特性,本文提出了一种改进的基于网格的密度聚类算法。算法通过密度函数将数据映射到网格结构,使用门限处理对网格进行分割,在二值化网格上聚类密度连通区域。该方法不仅具有基于网格聚类方法在聚类时间上的优势,也能对任意形状数据集聚类。(4)基于通用入侵检测模型构建了一种基于密度聚类的入侵检测模型,并将基于区域比例的聚类方法应用于入侵知识库的训练。实验结果验证了基于区域比例的聚类算法在应用中的有效性。实验表明以DBSCAN为基础的基于区域比例的聚类算法,在使用新的密度度量函数和区域比例思想后,对密度分布不均数据集的聚类比DBSCAN有更好的聚类效果,参数鲁棒性也有提升,达到了预期的目的。基于网格的密度聚类算法能对任意形状的数据集聚类,并且聚类时间独立于数据集大小,是对基于密度聚类算法的很好补充。
其他文献
目的:系统评价舌减容手术治疗伴有舌后坠阻塞性睡眠呼吸暂停低通气综合征(OSAHS)的近期疗效。方法:采用计算机检索万方、维普、中国知网和中国生物医学文献数据库,按纳入与排
明代中叶,伴随着商品经济的日益繁荣,绘画的性质也随之慢慢得发生微妙的变化。宋代画院画家为宫廷贵胄作画的专门职责,以及元代文人士大夫习惯以逸笔草草,自娱自乐的目的而作
针对长码直接序列扩频(DSSS)信号的符号速率估计的难题,提出了基于相关处理的方法。该方法首先估计长码直扩信号的相关函数二阶矩,然后将相关函数二阶矩的估计作为输入信号进行预
随着我国经济体制改革进入关键期,我国在公共物品供给问题上出现的寻租问题也越来越引起人们的重视。而由寻租问题引发的资源浪费、行政效率低下、官员腐败等一系列问题更是
以H-Arg-Lys-Asp-Val-Tyr-OH 为序列的胸腺五肽(TP5)是胸腺生成素II(Thymopoietin II)中第32~36 位的氨基酸残基片段,它保留了胸腺生成素II原有的生物活性,对机体的免疫系统
本工作系统地研究了高密度聚乙烯(HDPE)注塑成型冷却过程中的温度分布规律及结晶行为,对成型试样不同位置的温度变化状况以及结晶行为变化状况进行了数学模拟,为定量探讨聚合物
分析了几种韧皮纤维、棉纤维、木棉纤维、丽赛纤维,及几种特种毛纤维和芳纶的性能特点,叙述了针对上述纤维特性可以开发的纺织品的范畴。认为今后数年内传统纤维仍是纺织生产的
本文描述了北京控股磁悬浮技术发展有限公司产学研结合的新兴模式,评析了北控磁浮产学研结合获得成功的原因以及对完善我国产学研结合机制的启示。
本文分析了我国知识产权保护、刑事立法存在的问题及原因,提出了修订完善刑法现有规定的若干建议。
介绍了型钢混凝土结构的特点及计算方法.重点介绍了采用强度叠加法进行型钢混凝土梁的承载力计算以及变形和宽度验算的过程。