针对非均匀密度环境的DBSCAN自适应聚类算法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dimaie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,对人们的生产、生活以及工作和思维都产生着巨大的影响。在海量数据面前,如何将其转换为有价值的信息和知识,是当前一个十分重要且有意义的课题。通过对数据转换,数据处理和分析,数据挖掘在各个领域的数据分析和知识发现中发挥着重要的作用。聚类分析作为数据挖掘中的一个重要技术手段,它已被广泛的应用于各种数据分析场合。聚类分析通过发现数据集中对象的相关和分布模式,从而将数据集中的对象分组为不同的簇,每个簇中的对象类似。由于聚类分析在数据挖掘的应用范围内使用广泛,所以,提高聚类算法的效果很有必要。基于密度的聚类算法是著名的一类聚类算法,它基于密度扩展,可以从有噪声的数据集中发现各种形状的簇。但是,现在随着信息的爆炸式增长,形成的数据中包含着各种各样形式复杂的数据类型。所以,如何提高基于密度的聚类结果的准确程度和算法的自适应能力是一项值得研究的课题和挑战。作为聚类算法的一种,DBSCAN算法是经典的基于密度的一种聚类算法。它能够通过密度扩展来进行聚类。DBSCAN算法可以在包含有噪声和边界点的数据集中发现任意形状的簇,同时具有很好的抗噪声的能力。但是,DBSCAN算法有以下几个缺点。首先,它需要用户输入特定的参数,增加了对不同领域知识的依赖性;然后,由于使用了固定的全局参数的缘故,它不能很好的对非均匀数据集进行聚类;最后,算法的计算成本和I/O消耗比较大。针对以上问题的前两个缺点,本文提出了基于密度层次划分的自适应DBSCAN算法,SADBSCAN-DLP((A self-adaptive multi-density DBSCAN based on Density Levels Partitioning)。算法的思路如下:计算出数据集中各个对象的k近邻距离并排序,同时得到KNN矩阵,根据KNN矩阵中每一列数据对象间密度分布情况计算密度层次跳变阈值,通过该阈值来划分不同密度层次的数据代表集,根据聚类效果指数CEI(Clustering effect index)的值来自动得到Min Pts参数,并对每个代表集的Eps参数进行估计,最后,在每个代表集上用参数Min Pts和相应的Eps参数进行局部聚类,再将得到的各个局部聚类的结果逐一进行合并。实验结果表明,改进算法在参数自适应能力和针对非均匀数据集的聚类结果的质量上要优于传统的DBSCAN算法。
其他文献
当前随着人们对信息需求的不断拓展,所遇到的问题也越来越复杂,而且规模越来越大,解决这些问题所需要的计算能力也在大幅度提高。“网格”是一个新出现的概念,代表了一种先进的技
网格技术的出现被誉为信息技术的第三次浪潮,它通过使用通用的协议与接口将分布在不同地理位置的各类资源协同起来为用户提供服务。近年来随着开放网格服务架构的概念与标准
TeXCP算法是Sigcomm05上提出的一种用于MPLS网络中的在线负载平衡算法。该算法具有控制论上的稳定性,能适应业务变化自动调整到新的平衡点,与其它的在线负载平衡算法相比,该
在P2P—SIP电话模型中,通话质量极大地限制了系统的推广应用。传统改善通话质量的方式一般集中在对传输协议层的改进,这些方式增加了传输协议的复杂度,降低了信息交互的速度。本
无线传感器网络作为一种全新的信息获取和处理技术,应用领域广泛,如外部目标的定位和追踪,为网络提供命名空间,报告网络的覆盖质量,实现网络拓扑的自配置等,而网络自身定位是
滴丸是中药的一个重要品种,在中药企业中占有很重要的地位。在滴丸企业的实际生产中,为了判断生产工艺是否合格和稳定,同时为了进一步改进生产工艺,往往需要对滴丸生产的全过程的
学位
网格系统是共享因特网上分布式资源进行合作的新形式,GT4(Globus Toolkit 4)是一种被广泛接受的网格技术解决方案。信息服务是网格服务系统中的一个重要组成部分,而其在GT4的
随着互联网和电子商务的飞速发展,互联网为用户提供越来越多的信息和服务,用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据,即所谓的信息超载问题。面对海量的网络
现代信息技术的发展为教育信息化提供了新的工具和手段。然而,在教育信息化的过程中,信息孤岛现象日益严重,各业务系统间逐步构成了一个庞大的异构环境。而且,大量信息重复出
新型可字节寻址的非易失性存储器(NVM),例如相变存储器(Phase Change Memory,PCM)在低能耗、高密度、就地更新数据等方面拥有很多的优点,但是由于NVM具有读写不对称性特点,即