一种面向数据挖掘的并行体系结构研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：ccc1A2B3C

【摘要】

：

数据挖掘是近年来企业用以分析大型数据集的核心技术，是知识发现过程中的关键步骤，是数据库技术的进一步扩展。数据挖掘的效率问题一直都是制约数据挖掘技术发展的瓶颈。并行计

【作者】

：

冯永

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2003年期

【关键词】

：

数据挖掘并行体系结构 COW PVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是近年来企业用以分析大型数据集的核心技术，是知识发现过程中的关键步骤，是数据库技术的进一步扩展。数据挖掘的效率问题一直都是制约数据挖掘技术发展的瓶颈。并行计算技术为解决这个问题开辟了一种有效的途径。论文通过分析比较并行计算体系结构以及适用于并行计算体系结构的并行软件环境，提出了基于PVM（虚拟并行机）的一种面向数据挖掘的并行体系结构PAFDM（Parallel Architecture for Data Mining），论文的选题具有一定的理论意义和实用价值。论文选取了SMP、MPP、DSM、COW（工作站机群）四种并行计算体系结构作为研究对象，分析了它们的体系结构和系统特点。其中对最有发展前景的COW进行了重点研究，并从结点规模、结点复杂性、结点间通信方式、作业调度、SSI支持、结点操作系统、地址空间、结点间安全性、所有权、网络协议、系统可用性、性能衡量标准以及设计复杂性等13个方面对这四种并行计算体系结构进行了详细的分析比较。基于COW在能用性、可用性、可复用性、可扩展性和性能/价格比五个方面的优势，选择COW作为PAFDM的基础。论文分析了两种最为流行的并行计算软件环境PVM和MPI的工作原理和系统机制，并且从设计思想、系统支持、可移植性、任务控制和分配、资源管理、容错、安全通信的上下文、通信方式、名字服务以及消息句柄等10个重要方面对MPI和PVM进行了详细的对比分析。基于PVM“虚拟机”这一核心设计思想、良好的可移植性、对异构环境的支持、良好可扩展性、有效的资源管理、多级的任务分配和控制、有效的容错机制、对命名服务的支持、对多种并行计算模式的支持、与UNIX的无缝结合以及紧凑的结构，确定PVM作为PAFDM的并行程序设计环境。结合COW、PVM以及分布式操作系统Linux三者的优势，论文提出了一种面向数据挖掘的并行体系结构PAFDM，并从可扩展的体系结构、商品化的互连结构、标准环境、高性能服务、标准的编程模型、系统的可用性以及单一系统映像能力等7个方面对PAFDM的特性进行了研究分析，PAFDM的可扩展性好、有效的降低了互连设备的成本、提供了标准的操作环境、提供了一个高性能服务集、支持顺序计算以及多种并行计算模式、具有低成本的有效高可用性、提供了虚拟的单一系统映像。为了定量分析和评价PAFDM，论文选用了阶段并行模型这种优化的抽象机模型，按照阶段并行模型的三个阶段——并行化阶段、计算阶段、交互阶段以及每个阶段所采用的性能指标，结合实验数据，对PAFDM的性能进行了定量<WP=5>化分析，PAFDM的并行化开销和点对点通信开销较小，集合通信的开销以及集合计算的开销适中。最后，论文针对关联规则挖掘、分类挖掘以及聚类挖掘的特点，提出了相应的以PAFDM为基础的并行化策略，进一步说明了PAFDM的适用性

其他文献

基于组件技术的教学管理系统的设计与实现

作为分布式软件的开发标准和体系结构之一，CORBA技术在不断的发展和完善，因而对CORBA技术的研究也具有实际的意义和商业价值。本课题首先学习和研究了CORBA的基本理论和体系结

学位

分布式对象多层结构CORBAJAVA组件

软件缺陷检测与分析方法研究

软件缺陷普遍存在于软件系统中，影响其可靠性。自动化的软件缺陷检测方法可以帮助人们尽早发现缺陷的存在。按照实现原理的不同，目前主要的软件缺陷检测方法有基于静态分析的缺

学位

软件系统缺陷检测安全控制静态模型

基于角色的多Agent工作流管理系统

工作流管理系统(WfMS)自出现以来，在一定程度上推动了企事业生产和管理的发展，而反过来，企事业生产和管理的发展又对工作流管理系统提出了更高的要求，因此也要求它不断的发展和完

学位

工作流管理系统工作流Agent多Agent系统角色

面向绿色制造的层次式产品选择性拆卸序列规划

绿色制造是当前制造业的发展趋势，其综合考虑环境保护及资源消耗等因素，能够减少产品在全生命周期内对环境的影响，提高资源的利用率。产品回收有利于资源重用，减少废弃物对环境的

学位

选择性拆卸绿色制造整数规划层次式方法序列规划自动生成

C程序分析与测试辅助技术研究

软件测试是为了发现错误而执行程序的过程,是保证软件质量的重要手段,是软件生命周期的重要阶段.软件测试已经越来越引起软件用户及开发人员的关注.据统计,目前在软件开发总

学位

软件测试覆盖分析时间性能瓶颈内存使用分析程序插装

基于CD-RW的视频记录系统的研究与实现

通过分析研究MPEG视频压缩原理,CD-R和CD-RW光盘的记录原理,光盘记录的物理格式,逻辑格式,光盘的文件系统,光盘的接口协议等,设计了一个用CD-R或CD-RW光盆作为记录媒体的实时

学位

数字视频记录视频压缩可录光盘可擦写光盘MPEG

基于GPRS和中间件的无线应用系统研究与实现

当今，无线上网已成为网络应用的一个热门讨论课题，利用各种无线终端设备，结合先进的无线连通技术和流行的中间件技术，构建各种实际应用系统形成了软件研发的一个重要方面。论

学位

GPRSSMSHSCSDWAPWebSphereVPNPWAS

基于XML的数据复制技术的研究

在分布式数据库系统中,数据复制作为维护各个局部数据库间数据一致性的方法,扮演了极其重要的角色.构成分布式数据库系统的各个局部数据库可能分布在Intemet上,并且这些局部

学位

分布式数据库数据复制数据冲突模式映射XML可扩展性标记语言

高光谱图像的分类与解混研究

高光谱图像是非传统图像的重要组成部分，因其无损伤性，超分辨率，高精准性，逐步成为各个领域的研究热点。高光谱图像的研究涉及到高光谱图像分类，高光谱图像解混及高光谱图像切割等

学位

高光谱图像分类处理解混技术纹理特征

MANET及其环境下的路由研究

MANET(移动临时网络)是由一组带有无线收发装置的移动节点组成的一个多跳、临时的自治系统.该文分析了MANET的特点及其与其它类似网络的区别,讨论了它的应用领域,阐述了MANET

学位

移动临时网络路由协议NS-2动态移动基站

一种面向数据挖掘的并行体系结构研究

与本文相关的学术论文