基于RMI技术的分布式数据挖掘平台设计与研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:netting_fish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,也称为数据库中的知识发现,是从大量、不完全、模糊的实际应用数据中,提取隐含在其中、事先不知道的信息和知识的过程。传统的数据挖掘技术采用的挖掘算法:一方面所处理的数据都是集中在一台机器上,另一方面整个挖掘过程的计算也集中在一台机器上。随着各种网络尤其是Internet的广泛使用,网络中可获得的数据量持续增长,需要挖掘的数据源往往分布存储在网络的各个节点上。同时,随着信息技术应用的深入,挖掘算法执行的对象数据集越来越大,需要大量的计算资源,这必然要求执行挖掘算法的机器有相当高的性能,一台机器通常很难完成这种超大量的计算任务,与之相应的在其它分布式站点上的机器有着充裕的计算资源却不能有效地利用。对于这两个问题,传统的数据挖掘技术根本无法解决,因此分布式数据挖掘技术随之而出。所谓分布式数据挖掘就是使用分布式计算资源,从分布式数据库中发现知识的过程,主要包括两方面的内容:一方面,跨多个网络节点对分布式数据集进行联合挖掘;另一方面,利用网络节点的计算资源进行协同挖掘,满足巨大的计算工作量需求。通过对Agent、网格、RMI、CORBA等分布式技术进行比较,可以发现,Agent、网格技术是两种不成熟的技术,虽说有很好的前景,但使用和开发的难度很大。而RMI技术是一种很成熟技术,相对容易使用,且具有跨平台执行的能力优点。因此本文采用了RMI技术来实现分布式数据挖掘。本文以数据挖掘中的关联规则FP-Tree算法和分类ID3算法为切入点,对运用RMI技术进行分布式算法设计进行了探索,主要工作包括:首先,对要采用的分布式技术RMI做了深入的理解和掌握,并把传统的数据挖掘算法中的数据处理部分和任务执行部分发布为RMI服务。其次,对传统数据挖掘算法进行了研究,主要包括关联规则类经典算法Apriori、FP-Tree等算法,分类经典算法ID3、C4.5等算法。使用Java语言实现其中的FP-Tree、ID3算法。再次,在深入分析传统算法的基础上,提出和实现数据与计算都分布的DFP算法和DID3算法。最后,实现了分布式数据挖掘平台原型。本文的DFP算法和DID3算法都实现了数据与计算同时分布,并实验证明比对应传统的算法具有更好的性能。同时,实现了分布式数据挖掘平台原型,总结提出了在设计分布式数据挖掘算法时可参考的设计思路,便于后人将其它算法实现分布式。
其他文献
幼儿户外活动需要在教师的引导下,提高实践能力,激发孩子们的各种感官功能,增加幼儿对周围的事物和现象进行感知的机会.在适当的户外活动过程中,激发幼儿对生活的兴趣,提高孩
孩子在幼儿园学习数学的主要途径有数学集体活动和区角游戏活动两种.成人很容易通过视、听去认知某一事件或抽象概念,但对幼儿而言,除了眼、耳之外,还必须借助触觉、味觉、嗅
期刊
幼儿时期是人生的起步阶段,同时也是各种行为习惯的养成阶段.对于幼儿的生活习惯养成教育需要大家的共同努力,将教育贯穿于生活的各方面,让幼儿在不断地练习和潜移默化中形成
教务管理是高校管理工作的基础环节,教务管理信息化是教育现代化的重要组成部分,目前各高校都在积极推进教务管理系统的建设;相比传统高等教育,网络教育作为一种新型的办学形
为了加大对青少年思想教育的力度,各地方台大都成立了青少频道,专门针对青少年受众制作和播放他们喜闻乐见的节目,以达到寓教于乐、 In order to step up ideological educa
各位来宾,朋友们、同志们:rn今天,我们在这里欢聚一堂,隆重庆祝中国国家图书馆百年华诞.
在前几年我国的房地产投资热潮中,大部分房地产企业忽视了风险管理的重要性。近三年,国家出台了一系列宏观调控政策以规范房地产市场并促进其健康发展,严峻的风险问题摆在广大房
随着互联网的飞速发展,信息化正在深刻的改变着世界的面貌和人们的生活方式。与此同时,互联网信息爆炸性的增长,使得人们如何快速准确地获取信息的问题日益突出。20世纪90年代,搜
从提高图书馆服务质量出发,区分图书馆服务质量的显性标准与隐性标准,探讨服务质量隐性标准的识别与外化方法.
现代图书馆应重新审视自己的责任和义务,积极参与信息分化社会调控.图书馆可以采取加强基层图书馆建设、扩失信息资源共享、加强图书馆信息素质教育及针对弱势群体开展多种形