多密度聚类算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:crp123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和物联网的发展,信息大爆炸的时代已经来临。每天的数据以TB、PB甚至更大的单位更新。数据的不断增大,促使数据获取技术和数据存储技术,也实现了突飞猛进的发展,但是如何处理这些数据,从这些数据中获取有用信息,给研究者们带来了巨大的挑战。数据挖掘技术由此应运而生,已经成为越来越多的学者研究的热点。数据挖掘技术就是在大规模的含有噪声的数据中,学习包含在数据中的知识,获取有用的信息,然后把这些信息应用到生活科研等各个领域。聚类分析是数据挖掘技术领域内的重要研究方向之一,并在数据挖掘领域已得到广泛应用。通过对传统的聚类算法的研究,有很多经典的算法以及针对经典算法的改进,改进方面包括算法对数据的适应性、降低算法的时间复杂度,弱化算法对参数的敏感、提高算法对噪声点的识别能力、削弱算法对先验知识的依赖等。但是还是不可避免的在某些方面有所欠缺。例如基于密度的聚类算法,虽然可以在含有噪声的数据中识别出任意形状的簇,然而效率不高限制了其处理大规模数据的能力且处理多密度数据有待完善;基于网格的聚类算法把数据空间划分成有限个单元网格,处理的对象由网格单元为单位代替数据对象为单位,一般情况下,网格数量是远远小于数据对象个数的。这种方法的优点大大降低了处理对象的个数,而且聚类结果与数据的输入顺序无关,处理对象的减少意味着算法的时间复杂度降低,有较高的运算效率。但是现有的基于网格的聚类算法通常只有在数据集分布较为均匀的情况下才能够得到较好的聚类效果,对于数据对象在空间分布不均匀的情况聚类结果的精度还有较大的提升空间。针对以上问题,本文的主要研究工作如下:作为经典基于密度的聚类算法DBSCAN聚类算法能够在含有噪声的数据里识别任意形状的簇,但由于使用固定的Eps和Minpts,使得对于多密度的数据聚类效果不理想。针对此问题提出一种改进的DBSCAN多密度聚类算法。该算法先对数据集做预处理,使每个对象多一个属性,该属性用来记录该对象在给定半径的邻域内数据的密度,并以此属性对数据集排序;根据此密度自适应的生成适合该密度的密度阈值参数。该算法能够有效处理多密度数据,而且数据预处理技术能够有效避免数据输入顺序对聚类结果的影响。为了提高基于网格相对密度差的扩展聚类算法(ECRGDD)的聚类精确度,提出了基于动态的网格相对密度差聚类算法(CDGRDD),此算法把初始单元网格密度定义为动态,有效解决了ECRGDD对于中心密度大、边缘密度稀疏的类聚类效果不佳的问题,另一方面,在密度相似相邻的网格合并时加入距离判断条件,由此减少网格合并的盲目性。多次实验结果表明,CDGRDD能够较为高效的处理多密度数据。网格划分能够提高效率,把这种思想用在DBSCAN聚类算法中,提出一种基于区域划分的DBSCAN多密度聚类算法。该算法利用网格相对密度差把数据空间划分成密度不同的区域,根据每一区域的不同密度自动生成不同的Eps参数,并利用DBSCAN算法对每一个区域进行聚类。该思想使得DBSCAN算法在查找密度相连时只在本区域查找,避免了对所有数据的遍历。有效的提升DBSCAN聚类算法精确度;区域划分较多时算法效率也能得到有效提高。
其他文献
广东省名老中医是当代岭南中医的杰出代表,对药物养生有深刻的见解和实践:培后天之本,使脾胃健旺,则病邪无从侵袭;从肝论治,重视疏肝理气,以保持人体气机平衡;固先天之本,补
光电式太阳跟踪需要加装光传感器,增加系统硬件成本,且跟踪容易受环境因素影响。根据视日运动轨迹及太阳位置算法,选取STC90C516RD+单片机作为控制芯片,实现了一种无传感器太
<正>黎紫书没有问过我这个问题。至少没有直接问过。但读黎紫书的《告别的年代》,几乎每一页、每一行都听到她在问这个问题———为什么要写长篇?这个问题又同时分为两个:为
<正>人都说无独有偶,都说历史发展过程中往往会出现惊人相似的一幕,王蒙长达六十年之久的小说创作史,就可以说是以上说法的一种有力证明。众所周知,王蒙的小说处女作是一九五
黄文政教授临床上对视网膜动脉硬化表现为眼球结膜出血者,从热毒论治,运用四妙勇安汤为主方辨证施治,清热解毒、活血通络,以参苓白术散作为基础方加减化裁,益气健脾,祛湿泻浊
中医以"络脉络病"理论为指导,认为"肺络痹阻"是肺癌形成和发展的关键病机,提出以"通络法"治疗肺癌,具体包括行气通络、化痰通络、活血通络和搜风通络法,临床运用时须注意辨病
阳痿的病因为情志刺激,不适当的性生活,不良生活习惯及久病体虚、禀赋不足、年高体衰、跌扑损伤或宗筋损伤、六淫侵袭、疾病影响和药物作用等。肝郁和肾虚是最重要的基础病机
<正>二〇〇八年,阎连科在韩国外国语大学的一次讲演中,曾经用一句话概括他的文学观念:"我的语言、结构、叙述、故事、人物、形式等等,包括我对现实的认识和写作态度、写作立
当前,图像识别成为人工智能和模式识别领域中一项最为重要和活跃的研究课题,本文的研究是基于典型相关分析(Canonical Correlation Analysis,CCA)展开的,在典型相关分析的框
随着信号处理技术的发展,基于窄带阵列信号的高分辨算法已经比较成熟。相对于窄带信号,宽带信号具有携带的目标信息量大、混响背景相关性弱等特点,有利于目标的参数估计。而