带障碍聚类算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:abkkk123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多元分析、数据挖掘技术的不断发展,计算手段的日益更新,人们对数据挖掘的要求也愈来愈高。在实际应用中,为了找出感兴趣的知识,常会碰到带约束条件的问题。带约束的聚类问题是指:所分析的对象个体、聚类个体或者对象个体与聚类个体间存在着一种限制条件。带障碍距离的约束可以看做带约束聚类问题中,个体对象间约束的一个特例,也是带约束聚类问题里一个重要的研究方向。带障碍距离的聚类问题是指两个对象间的关系——空间距离,用带障碍距离代替普通聚类算法中的欧氏距离,并以之作为约束条件的一类聚类问题。本文以网格为基础,将DBSCAN聚类算法的寻找近邻对象的思路与计算机图形学中的种子填充着色算法相结合,提出了一个高效的带障碍聚类算法DCellO。它的执行时间基本与对象数量成线性关系;采用邻接网格的概念,因此能进行任意形状的聚类,同时,也将计算范围限制在局部区域内,提高了算法的执行速度;通过设定聚类的下限阈值,有效的消除了背景噪音对聚类质量的影响。对于海量数据,DCellO算法存在内存的瓶颈问题;此外,如果网格空间过大,也会导致内存不足的问题。针对这些缺陷,本文利用当前的热点技术——集群系统,结合密度聚类算法的局部性原理,提出了一个集群化的基于分区的带障碍聚类算法PDCellO。PDCellO算法通过分区的办法,将分析空间从大化小,然后将分区信息发往客户机,这就等于将服务器上的计算负荷转移到各个客户端上,同时也充分利用了闲置的计算资源。它能有效的处理海量数据,同时聚类效果也与串行DCellO完全一致。对提出的两个算法就时间复杂度和聚类结果的质量两方面进行了分析,并在模拟数据上进行了实验,验证了算法的正确性和有效性。
其他文献
工程图识别和三维重建是图形识别与 CAD 领域的研究热点,具有重要的理论意义和应用价值。本文总结现有的工程图识别方法及其在处理建筑工程图时的局限性;在此基础上,对建筑工程
软件过程改进是提高软件开发生产率、保证软件产品质量的有效手段之一。常用的软件过程改进方法有:CMM、ISO9000、SPICE等。其中,软件能力成熟度模型(SW-CMM)是被广泛采用的软件
  论文在研究了各类中间件技术的基础上,就图书出版领域常用的几类软件体系结构进行了描述和比较,结合图书出版领域业务系统的特点和需求,构建了一个针对该领域的基于J2EE规范
机器翻译是自然语言处理领域中的一个重要应用。随着国际交流的频繁和互联网的发展,对机器翻译的需求越来越大。目前机器翻译的研究取得了很大进展,但是同人们的期望依然有相当
P2P应用的快速增长,带来网络拥塞、大量消费网络带宽等诸多问题,而传统的基于端口与有效载荷的网络流量分类方法存在着很多缺陷,研究按照5元组(源IP、源Port、目的IP、目的Pr
本论文通过对图像的实验分析,旨在研究一种基于机载火控系统的数字图像压缩算法和预处理算法.本论文提出的优化后的图像预处理算法以及AQPFC算法,有效地解决了汉字图像的笔划
本文讨论的是利用NewsML标准建立的内容产品制作系统的设计和实现,包括该系统与博思系统的交互,使之成为构建中的博思内容产品平台的一部分。首先介绍了NewsML及其相关技术,重点
网络技术的发展为医疗信息的共享和交换,提供了可实现的平台和技术保障。信息共享是网络化发展的核心,构建以共享医疗信息为核心的基于网络的区域性卫生系统体系,是实现医疗
流媒体应用的广阔前景推动了流媒体技术的研究,各项关键技术也随之不断进步。但流媒体本身的高资源消耗特点与服务器出口带宽、网络带宽限制之间的矛盾,使流媒体系统的性能和服
在众多的安全协议分析方法中,基于串空间的形式化分析方法是当前的研究热点之一。串空间理论发展过程中有两个重要事件:其一是Guttman提出的串空间模型认证测试方法;其二是So