论文部分内容阅读
随着信息技术在社会生活各个领域的快速应用,人们越来越重视数据收集工作,建立了数量众多的数据库,把它们广泛应用于商业、行政、教育、科研等不同行业。同时,为了从丰富的数据资源中找到自己需要的有益信息,人们又提出了数据挖掘和分布式数据挖掘的方法。前者能在大量数据中自动发现感兴趣的知识。后者则利用了分布式技术来实现数据挖掘。目前,分布式数据挖掘已经成为数据挖掘的主流形式。另一个方面,网格作为一种新型的分布式计算技术,逐渐成熟。网格具有超强的计算处理能力、良好的系统扩展能力和高效的分布式资源管理能力。它突破了计算能力的限制、存储能力的限制、资源分布的限制、资源共享方式的限制,适用于计算密集型、数据密集型应用。利用网格技术进行分布式数据挖掘是一种全新的尝试。为此,本文对基于网格的分布式数据挖掘体系结构进行了研究,提出网格分布式数据挖掘的解决方案,即在网格中间层之上,为网格应用建立分布式数据挖掘中间层,为用户提供了更加通用的分布式数据挖掘平台。论文的前四章是相关技术知识背景。首先介绍了分布式数据挖掘技术,阐述了分布式数据挖掘的概念、模式、研究内容、工作流程,指出了传统分布式数据挖掘系统存在的主要问题。接着对网格技术进行了总体描述,研究了它们的概念、特点,及其应用领域。然后具体地分析了Web服务资源架构的技术规范,研究了globus项目工具包GT4服务组成。论文第五章,进行了网格分布式数据挖掘中间层设计。分析了网格分布式数据挖掘体系结构,提出了网格分布式数据挖掘中间层模型,将分布式数据挖掘中间层划分为四个服务资源:全局WS资源、局部WS资源、算法WS资源、数据分配WS资源,定义了它们的服务接口和资源属性,描述了服务调用的流程。最后,进行了中间层服务资源原型实现。描述了各个WEB服务资源的资源属性文档,实现了操作这些资源属性文档的接口,使用统一建模描述语言描述了各个Web服务资源的静态结构图。并且,通过安装网格中间件,建立了基于局域网的网格试验环境,以一个分布式挖掘实例进行了试验,从而论证了论文提出的网格分布式数据挖掘中间层的可行性。