集群环境下并行BIRCH算法的研究与实践

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:icerjack
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高性能计算技术在全世界范围内受到了高度重视,在众多高新科技领域中的应用都取得了巨大的成就。集群系统的出现更给高性能计算的研究增添了一个极具吸引力的生力军,它以无可替代的优势和可深挖掘的潜在性能,成为了当前并行处理的热点和主流。 BIRCH是数据挖掘领域中层次聚类的经典算法之一,它特别适合于大数据集,单遍的扫描数据集就可以产生较好的聚类。然而,随着其应用范围的日益广泛,有些问题需要处理的数据量非常之大,有些则要求有极快的运行速度,目前的计算速度达不到实际要求。 基于此,本文对如何在集群系统中采用BIRCH进行快速聚类以及如何取得更好的聚类结果进行了深入的研究和分析。 首先,本文对BIRCH算法进行了深入研究,编写了其串行算法,针对算法中存在的局限性,提出了CF-树中不同的簇应使用不同阀值的思想,极好地改善了对体积相差悬殊的簇不能很好聚类的不足。随后,搭建了基于Windows和MPI、Linux和MPI的两个集群系统。在此基础上,以主从模式作为并行程序的模型,对BIRCH的并行化进行了重点分析和研究,并提出了一些创新:认为在集群环境下,BIRCH算法的并行化应采用数据并行的思想;为达到计算与通信的最大重叠,各从节点之间应该选用增量递增的非均匀数据划分策略;从该思想出发推导出各节点的基本数据区块的计算公式;并利用该公式对原有的数据选段方式进行了改进;此外,给出了提高聚类质量的方案。 其次,本文利用自建的两个实验平台,对并行算法进行了测试,比较了串行与并行BIRCH算法之间以及在不同平台之间的运算时耗的差异。根据理论研究和实际测试结果,表明利用集群系统进行BIRCH并行聚类能有效地提高效率是可行的,并得出Linux集群的性能较优。 本文的研究结果对聚类算法在相关领域的实际应用有着一定的参考价值。
其他文献
在目前的 WEB 系统中,用户界面是指计算机与其使用者之间的对话接口,是 WEB 系统的重要组成部分,它直接关系到整个计算机系统的可用性和使用效率。目前开发用户界面的工作量
因特网是一个巨大的全球性的信息服务中心。传统的媒体受到冲击,逐渐向网络媒体转变,提供网络信息服务的竞争日益激烈。目前的网络新闻服务站点基本上是基于B/S结构的单一的
在控制理论和技术飞速发展的今天,PID控制由于其具有控制方法简单、易于实现和现场调试等优点,被广泛应用于工业过程控制。在实际过程中,被控过程都是非线性的且具有时变不确
  本文在基于RTLinux开放式数控系统研发的课题背景下,对数控系统中控制器软件的一个重要模块——数控代码解释器进行了研究与分析。文章根据具体任务课题,研究了基于RS274/N
形式概念分析(Formal Concept Analysis)这一新兴的数据挖掘理论,是由德国学者Wille提出的。形式概念分析的思想主要来源于哲学,在哲学中,概念是由外延和内涵两部分组成的思
随着数据库应用的不断深化,越来越多的数据被贮存到了计算机中,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,因此充分利用数据进行决策支持成为当今最需要深入
形式化验证方法主要包括定理证明和模型检验,其中模型检验因其自动化高得到重视,并已经在硬件领域和通讯协议的分析与验证中取得了巨大成功。近几年来,软件模型检验成为研究
强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。本文主要研究连续状态空间下的强化学习问题,并将神经网络应用于强化学习技术中,用来估计状态-值函数。
计算机信息系统的安全措施包含了认证、访问控制、审计和存储等内容,作为重要组成部分的访问控制可以分为网络层、主机和操作系统以及应用层访问控制三种。传统的访问控制模型
电子政务新模式的探讨一直是一个热门话题,本课题就是在对财政部门传统的政务模式进行深入分析后,提出了一种将网络办公自动化与财政监管相结合的新模式。 本文主要介绍基于