聚类CLIQUE算法及其并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:rsbgrc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注。聚类分析是数据挖掘中的一个重要研究领域,它从数据库中寻找数据间的相似性,从而优化大规模数据库的查询和发现数据中隐含的有用信息或知识。如何进行快速聚类以及如何取得更好的聚类结果成了聚类数据挖掘算法研究的重点和难点。CLIQUE算法综合了基于密度和基于网格的聚类方法,它有着速度快的优点。但是由于方法太简化,可能会降低聚类结果的精确性。通过深入的研究和分析,发现由于CLIQUE算法没有考虑到如何利用当前挖掘数据的特性,而是进行一种硬性的网格划分,因此增加了计算复杂程度,而为了降低计算的复杂程度就只能降低聚类结果的精确性。针对上述问题论文引入了自适应的网格划分方法,通过在一维的情况下预先分割区间,然后找出密集分割区间并对分界进行调整来得到密集区间,最后把这些密集区间作为划分网格的依据。这种划分网格的方法很好地利用了当前要挖掘的数据的特性,同时减少了网格的数量以及密集单元候选集的数目,大幅度减少了计算的复杂程度,从而使得在每个子空间进行计算成为了现实,也大大提高了聚类结果的精确性,但算法的时间复杂度仍是指数级的。只是这个指数是维数,使得算法的时间复杂度比起很多聚类算法的仍然简单很多。为了进一步提高算法的执行效率,论文还对并行CLIQUE算法进行了研究。选用通过商用网络连接起来的PC机,以及并行虚拟机PVM和分布式操作系统LINUX,共同构成了一个机群系统作为并行计算平台。在并行程序的模型上选用了Master/Slave模型。该并行算法将数据集分配到各个节点机上实现了数据并行,在数据并行的基础上,当生成密集单元候选集以及验证密集单元的时候又采取了任务并行的方法。由于主体是数据并行,因此达到了接近线性的加速比。每个节点计算任务的时间复杂度由两部分构成,一部分是指数级的验证密集单元的时间复杂度,另一部分是线性的通信时间复杂度。最后,通过实验验证了并行CLIQUE算法的可行性,从实验中得到的并行算法的加速比与理论分析结果一致。实验表明,并行CLIQUE算法在提高了聚类挖掘结果精确度的同时达到了较高的效率,同时由于算法是基于PVM的机群系统开发的,因此算法的通用性较强。
其他文献
个性化服务是在Internet“信息爆炸”的背景下对“信息过载”和“信息迷航”问题的解决方案,个性化服务将是未来信息服务的主流模式。本文提出了一个基于Web使用挖掘的个性化
该文对已有的技术进行新的扩充,利用智能Agent技术来监测和调节应用性能,给出了使用智能Agent对网格计算进行实时监控的新方法.该文使用排队论对结点的负载进行预测.使用多元回
签名作为人类的一种独特行为特征,因可代表书写人的身份,一直以来在金融、安全等领域有着广泛的应用。随着计算机技术的发展,近二十年来,签名鉴定技术的自动化处理得到较多的研究
在国外,分布式应用系统的研究与开发早已进行。截止到目前,国外的分布式应用系统的在技术上已呈现如下特点:多层次性、面向对象型、跨平台性、系统功能易扩充、系统易维护、能适
Reed-Solomon(RS)码具有同时纠正突发错误和随机错误的能力,且纠正突发错误更为有效,其纠错能力达到了分组纠错码的极限,因而被广泛地应用于数据通信和数据存储系统的差错控制中。
本文首先论述了XML、UDM、SOAP等能够用于数据交换系统的核心技术。阐述了在硬件层上进行数据交换的基本原理,为将来在企业内部或企业之间构造数据交换系统打下坚实的理论基础
伴随着互联网的飞速发展,海量图像数据不断涌现,对图像所蕴含的丰富语义进行理解也成为学术界的热点。近年来,深度学习从海量标注数据出发来构建大规模深层网络结构,在视觉识别和
该文根据稀土超磁致伸缩材料的特点,结合国内外稀土超磁致伸缩换能器和高精度非圆截面加工的现状及的应用情况,以课题"GMM换能器及其在高精度非圆截面加工中的应用研究"为工
随着Internet的发展,人们对互联网络连接要求越来越普遍。当前许多用户已经拥有了一个或多个自己的局域网,如何快速、稳定、安全的让整个局域网接入Internet,这是一个对于电信数
USB接口技术与传统的接口技术有很大的区别,USB总线是一种串行总线,它结合了计算机网络和PCI总线的部分特点但又有自己的特色.USB系统中只能有一个USB主机,USB的数据通信协议