基于相对密度的聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:zxw2yanzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域的一个热点课题,目前国内外学者已提出许多算法,这些算法依据其自身不同的特性可适用于不同的应用环境。其中传统基于密度的聚类算法以其良好的可伸缩性、抗噪能力和发现任意形状簇的能力得到广泛应用,然而由于其采用全局参数,即绝对密度作为簇的度量标准,故传统密度聚类算法有一重要缺点:不能发现不同密度等级的聚类。以相对密度作为簇的度量标准能很好的解决该问题,因此产生了基于相对密度的聚类算法。同时,在实际应用中,待聚类的数据通常是动态变化的,当数据发生变化时,原挖掘出的聚类模式也应进行更新。因此,如何设计增量聚类算法以避免计算资源的浪费和提高聚类效率,已成为当前聚类分析的一个重要挑战。本文首先介绍聚类的相关知识,对数据挖掘中常用到的基本概念如聚类、相似性度量、密度等进行了简单介绍;对传统聚类算法进行回顾,并给出了分类和性能比较。其次,在分析传统密度聚类算法的不足的基础上,提出了基于相对密度的混合属性数据集聚类算法M_RDBCA(Relative Density-Based Clustering Algorithm for Mixture Data Sets),该算法克服了传统密度算法的不足,保持了基于密度聚类算法可以发现任意形状的聚类和对噪声不敏感的优点;由于算法定义了混合属性距离用于度量混合属性对象之间的相似度,并引入了纯邻居的概念,因此该算法在聚类时既考虑了数值属性也考虑了分类属性;算法以相对密度作为聚类标准,能区分不同密度等级的簇,同时提出纯核心对象集的概念,使簇中对象能更好的融为一体;另外,算法为参数的设置提供了理论依据,避免了诸如DBSCAN算法的聚类结果对于参数过于敏感的问题。最后,对M_RDBCA的增量聚类方法进行了深入细致的研究。首先,介绍了增量聚类算法的数据模型和基本思路;其次,研究了M_RDBCA算法三种不同操作方式下的增量聚类算法:①影响集重新聚类——确定受增删操作影响的对象集合,增量聚类仅对该影响集进行处理;②单个增删更新方式——依据插入或删除对象对聚类的影响,对簇执行合并、分裂或吸收等操作,并通过实验分析,绘制了性能加速图;③批量更新方式——简单说明了批量更新的思想和方法,即分析更新对象对聚类的影响时,不仅考虑更新对象和数据库中已有对象,还应考虑更新数据库中的插入和删除的对象。
其他文献
Internet已经日益成为应用程序开发的默认平台。随着开发人员对应用程序复杂性要求的日渐增加,可是Web应用程序对完成复杂应用方面却始终跟不上步伐。为了提高用户体验,出现
人脸识别技术在社会中的应用场景日益增多,人脸刷卡、人脸支付甚至是寻找失踪多年的儿童这种跨年龄段的识别技术都已经有所应用。目前,人脸识别技术已经是模式识别和计算机视
分类是数据挖掘和机器学习等领域中一个非常重要的研究课题,在众多领域中都得到了广泛的应用。当前已经提出的分类方法主要有贝叶斯分类、决策树、神经网络、支持向量机等,其
数据挖掘是在海量数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法,其在功能上的健壮性和应用领域的广泛性已被研究者一致认同.而取样是最通用有效的近似
NFC(Near Field Communication)是近年来在射频识别和无线通信技术的基础上发展起来的一种近距离无线通信技术。近距离通信技术与现有的非接触技术完全兼容,并发展了其特有的
学位
蛋白质是生命活动的物质基础,生命活动中各种生理功能的完成大多是通过蛋白质来实现的。蛋白质多种多样的功能与其特定的空间构象密切相关,蛋白质分子的空间构象是其功能活性的
随着Internet的快速发展,基于Web的软件也在各行各业中广泛应用。在高校也是如此,师资、教务、学生等多种管理系统被开发和应用,其中传统化的纸质考试逐渐被网上在线考试系统
随着计算机技术的发展,人机交互领域的研究越来越受到人们的重视。脑机接口是一种新型的人机交互系统,它在人体与计算机之间建立连接,利用从人体采集到的脑电信号控制计算机
搜索引擎是信息检索必备的工具,也是一门非常适用的技术,虽然各大搜索引擎在不断地完善和发展自己的技术,但是仍然满足不了用户的需求,随着用户的数量和互联网的信息量不断增
具有无标度特性的复杂网络即为无标度网络,此种网络的度分布满足幂律分布,即概率上具有自相似性。所谓自相似性,是指函数形态在不同放大倍数上的性状相似;所谓标度不变性,指