论文部分内容阅读
数据挖掘是近年来企业用以分析大型数据集的核心技术,是知识发现过程中的关键步骤,是数据库技术的进一步扩展。数据挖掘的效率问题一直都是制约数据挖掘技术发展的瓶颈。并行计算技术为解决这个问题开辟了一种有效的途径。论文通过分析比较并行计算体系结构以及适用于并行计算体系结构的并行软件环境,提出了基于PVM(虚拟并行机)的一种面向数据挖掘的并行体系结构PAFDM(Parallel Architecture for Data Mining),论文的选题具有一定的理论意义和实用价值。论文选取了SMP、MPP、DSM、COW(工作站机群)四种并行计算体系结构作为研究对象,分析了它们的体系结构和系统特点。其中对最有发展前景的COW进行了重点研究,并从结点规模、结点复杂性、结点间通信方式、作业调度、SSI支持、结点操作系统、地址空间、结点间安全性、所有权、网络协议、系统可用性、性能衡量标准以及设计复杂性等13个方面对这四种并行计算体系结构进行了详细的分析比较。基于COW在能用性、可用性、可复用性、可扩展性和性能/价格比五个方面的优势,选择COW作为PAFDM的基础。论文分析了两种最为流行的并行计算软件环境PVM和MPI的工作原理和系统机制,并且从设计思想、系统支持、可移植性、任务控制和分配、资源管理、容错、安全通信的上下文、通信方式、名字服务以及消息句柄等10个重要方面对MPI和PVM进行了详细的对比分析。基于PVM“虚拟机”这一核心设计思想、良好的可移植性、对异构环境的支持、良好可扩展性、有效的资源管理、多级的任务分配和控制、有效的容错机制、对命名服务的支持、对多种并行计算模式的支持、与UNIX的无缝结合以及紧凑的结构,确定PVM作为PAFDM的并行程序设计环境。结合COW、PVM以及分布式操作系统Linux三者的优势,论文提出了一种面向数据挖掘的并行体系结构PAFDM,并从可扩展的体系结构、商品化的互连结构、标准环境、高性能服务、标准的编程模型、系统的可用性以及单一系统映像能力等7个方面对PAFDM的特性进行了研究分析,PAFDM的可扩展性好、有效的降低了互连设备的成本、提供了标准的操作环境、提供了一个高性能服务集、支持顺序计算以及多种并行计算模式、具有低成本的有效高可用性、提供了虚拟的单一系统映像。为了定量分析和评价PAFDM,论文选用了阶段并行模型这种优化的抽象机模型,按照阶段并行模型的三个阶段——并行化阶段、计算阶段、交互阶段以及每个阶段所采用的性能指标,结合实验数据,对PAFDM的性能进行了定量<WP=5>化分析,PAFDM的并行化开销和点对点通信开销较小,集合通信的开销以及集合计算的开销适中。最后,论文针对关联规则挖掘、分类挖掘以及聚类挖掘的特点,提出了相应的以PAFDM为基础的并行化策略,进一步说明了PAFDM的适用性