一种新的基于数据分区的PDBSCAN聚类算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:xxcoldrain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析一直是数据挖掘领域相对活跃的一个领域。在过去的这些年里,站在不同的角度、针对不同的实际情况,人们提出了许多卓有成效的聚类分析方法。根据其各自依据的原理不同,大致可以分为基于距离、基于密度、基于层次、基于模型以及基于网格等五类方法。本文在详细分析了现阶段比较常用的聚类算法以及各自的优劣之后,重点地分析了基于密度的经典算法DBSCAN的思想和步骤,总结出了DBSCAN存在的三个问题,提出了一个基于DBSCAN的改进聚类方法PDBSCAN。 DBSCAN算法存在着三个不足之处:(1)、DBSCAN算法采用一个全局的Eps(半径)来对整个数据集合进行聚类,其优点在于能够发现任意形状的类以及对噪声不太敏感。但当输入数据分布及不均匀,类与类之间的密度相差过大时,采用一个全局的Eps的弊端是显而易见的。可以分析,在刚才假设的数据分布情况下,采用一个全局的Eps虽然可以找出那些密度较大的类,却无法辨别数据集合中那些密度相对过小、而实际上非噪声点的类,从而导致错误的聚类结果;(2)、DBSCAN需要建立整个数据空间的R*-树,需要较大的内存支持,I/O消耗非常大。由于系统内存的限制,当数据量急剧增大时,很有可能运行不了DBSCAN算法;(3)、DBSCAN算法的Minpts和Eps参数的确定缺乏科学的指导,完全靠用户经过尝试确定,但这两个参数又是决定聚类结果好坏的关键。 针对DBSCAN算法的不足,本文提出了PDBSCAN算法。PDBSCAN算法的主要思想是:根据整个数据空间的密度大小分布情况,对整个数据空间进行分而治之的策略,密度大的区域先聚类,密度小的区域后聚类,根据密度的不同确定不同的Eps参数进行聚类。最后,将各个小区域的聚类分结果合并和归并噪音点,得到最后的聚类结果。 PDBSCAN算法把整个数据空间化整为零,解决了由建立*-树所带来的I/O问题;同时,在各个密度区域采用不同的Eps,解决了不能发现比较稀疏的类的问题。在本文的最后,在模拟数据上实现了PDBSCAN算法的关键步骤——数据分区。验证了分区策略的有效性。
其他文献
足球是我校选项教学内容之一,作为世界第一运动项目,足球又是广东省普通高考体育术科考试的一个专项,深受我们喜爱。在我校,选择足球作为自己学习内容的学生比较多,而最吸引
近几十年来,谱负Lévy过程的双边出口问题吸引了众多学者的兴趣,其在风险理论、排队论、连续分支过程等领域中有着重要的应用意义。最近,Albrecher et al.(2016)一文在Kuznetsov(2006)、Albrecher和Ivanovs(2013)的理论基础上将双边出口等式推广到泊松观察下谱正(负)Lévy过程的情形。Li et al.(2017)运用excursion理论和近似方法,
学位
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
关于井模型的奇异性问题的研究对于地下流体输运,特别是石油开采的数值模拟有着非常重要的指导意义。 本文首先对此问题在工程和数学两个方面上背景知识和研究进展做了概括
在地下作业条件下,爆破准备作业最危险的过程是气力装药。这是因为沿软管经过装药器的气力输送炸药过程中发现固体炸药成分(氨硝石和三硝基甲苯CT·N·T)颗粒的粉碎和从硝铝
本文提出用贝叶斯方法来分析带有不可忽略的缺失数据的非线性再生散度模型.其中,不可忽略的缺失机制由一个逻辑回归模型来定义.文章用到了一种结合Gibbs抽样和M-H算法的混合算
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文针对一种比较常见的星状结构的三种异质对象联合聚类问题进行了系统的研究,严格地分析了以往聚类算法在处理这类问题时遇到的严重挑战,并且创造性地提出了用来解决此类问题
本文研究了二阶脉冲微分方程 {[r(t)y(t)]+f(t,y(t))=0 y(tk+)=y(tk-),y(tk+)=bky(tk) 和 {[r(t)y(t)]+f(t,y(t))=0 y(tk+)=aky(tk),y(tk+)=y(tk-) 的解的非
熵对很多随机系统及实际问题来说,是一个很重要的指标.对某一状态空间,及其上的某一马氏半群而言,在给定初始分布μ的情形下,如何有效的刻画此马氏过程趋近平衡态时长时间的行为