基于Globus的决策树分类系统研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qq0123456456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化程度的提高,在人类社会的各个领域聚集了大量甚至是海量的数据,数据挖掘就是要从这些数据中提取有用的信息,从上世纪80年代末以来人们对数据挖掘模型、算法、系统进行了大量的研究,并取得了一定的成果,为了提高算法的效率,并行和分布式数据挖掘一直是研究的重点,但面临很多挑战,比如:数据的海量、异构、分布、计算密集;知识表达形式不够丰富;挖掘工具和环境缺乏等,网格技术的出现在一定程度上为解决这些问题提供了帮助。Cannataro Mario提出下一代网格的研究应主要致力于为用户提供知识服务。近年来,关于在网格上提供知识服务渐渐成为了研究的热点,并取得了很多重要成果,这些项目着重于在网格上实现知识发现服务的整体架构,而对利用网格服务来实现并行分布式数据挖掘算法很少提及,要在网格上进行知识发现,就不得不涉及到数据挖掘的算法,目前对可并行性算法利用网格服务来实现研究比较少。针对这种情况,论文采用网格系统中间件实现工具包Globus Toolkit Version 4按照网格服务的方式实现并行决策树分类算法SPRINT。采用该方式有以下优点:(1)扩展性好,因为采用网格服务的方式实现,只须将算法相关的网格服务部署在参与计算的网格节点,增加参与计算的新节点较容易;(2)可复用,使用标准的网格服务,能很好的被其他网格应用集成;(3)充分利用网格资源,SPRINT算法固有的可并行性,在网格上实现该算法可以充分利用虚拟组织内的网格节点的计算能力,提高基于网格的知识发现服务速率。论文首先对数据挖掘相关概念及决策树分类算法进行介绍,详细分析了论文将要以网格服务的方式实现的并行决策树分类算法SPRINT。随后,论文对网格及网格计算相关内容进行简要介绍,对目前主流的几种网格体系结构进行了详细分析,并对其中的五层沙漏结构和开放网格服务架构的优缺点进行了比较,并简要介绍分析了基于OGSA按照WSRF规范实现的网格中间件工具包GT4的各个功能部件。最后,采用GT4,按照网格服务的方式设计实现并行分布式决策树分类算法SPRINT,安装网格中间件GT4,组建了一个虚拟局域网格环境,通过数据集实例论证了论文提出的实现方式的有效性和可行性。
其他文献
人工神经网络(Artificial Neural Networks,简称ANN)是人类对其大脑信息处理机制的模拟。由于其自组织、自学习、自适应、非线性函数逼近和大规模并行处理等能力,因而具有用于智能系统的潜力。个体经济是整个国民经济的重要组成部分,是地方税源的重要来源。然而个体定税主观随意性大,一直是个体税收工作中的难点。系数定税一定程度上增强了税负的公平性,但其定税模型不能实时、动态地计算纳税人
事件相似度对事件本体构建、事件知识库建立以及基于事件的信息查询等都具有重要的作用。传统的事件相似度计算按照事件的六元组定义进行计算,涉及事件的动作、对象、环境、断
P2P是由若干互相对等的网络结点组成的一种网络结构,其中每个网络节点称为对等点,对等点消除了服务器和客户端间的角色差别,通过它们之间的信息直接交换完成计算和信息的共享。J
随着互联网技术的飞速发展,计算机网络已逐渐成为人们生活中不可缺少的组成部分。然而,网络本身的不安全因素以及网络通信协议的缺陷,为入侵者的攻击带来了可能。同时,操作系
随着计算机技术的迅猛发展,大多数企事业单位都逐步实现了与业务相关的管理信息系统。这些系统在开发时往往没有考虑和其他系统的交互,并且由于开发时期不同、所用技术不同等
随着Internet以及电子商务的发展,信息安全成为计算机科学技术领域引人注目的重大问题。必须采用十分可靠的安全技术来保证各种应用的机密性、完整性、身份鉴别和不可抵赖性。
与别的行业相比,石油行业是一个高风险,高投入的行业,它受到许多不确定性因素的影响,面临着地质、经济和技术等方面的风险。石油企业进行的项目投资,资金往往巨大,并且受到许多因素
在Internet大众化及Web技术快速发展的今天,企业已开始逐步关注自身公司网络应用的发展。网络应用如今已经从一般的网站发展成为大型电子商务、信息发布和提供各种服务的平台
摘要:过去的20年来,由于人类对互联网带宽无止境的需求,加上视频压缩技术的发展以及不断增长的用户需求,基于互联网的视频流应用很快成长为主流的“杀手”级应用。为了满足高
随着信息技术的广泛应用,软件的应用面也越来越广,要求对软件开发的针对性和及时性越来越高,特别是中小型软件公司,它们不一定能够认证和实施CMM管理,但是同样需要一个软件质量度