基于决策树的分布式分类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ujrcji54937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们现在生活在一个网络化的新时代,通信、计算机和网络技术正改变着整个人类和社会。目前大多数分类算法适用于集中式环境,当伴随着大量的数据集、用户和系统上的地理分布时,把地理上分布的数据集集中到集中式的站点上会引起巨大的网络传输代价。因此,如何充分利用地理上分布的数据资源,结合各种不同的分类技术来完成高性能的分布式分类任务,就成为必然的事情。 虽然分布式分类算法是近几年才提出的新的研究领域,但由于其诱人的应用前景,目前已有相当数量的研究人员投入到对该领域的研究当中,并取得了一定的成果。Jerzy等人提出了知识发现中分布式挖掘技术方面的研究,提出了他们对基于决策树的分布式分类算法的研究成果。利用Agents和Mediator之间的同步协作机制来完成,Mediator负责各个Agent之间的通信。各个agent通过Mediator进行协商、合作和行为规范,来完成基于分布式条件下的分类任务。 对决策树算法的评价有两个标准:第一,生成的决策树是否比较简化;第二,分类的精度是否达到一定标准。在基于决策树的分布式分类算法中,关键的问题就是对决策树的局部结果集成的方法。其目的是在确保精确度的同时,提高可理解性。我们研究发现对决策树的局部结果集成的方法大致有两种:一种是在产生局部决策树后,先得到局部规则,然后进行局部规则结果的修剪措施,得到全局结果。另一种就是产生局部决策树后,先进行局部决策树的集成,然后进行剪枝措施,得到全局决策树,从而得到全局结果。 实验证明,基于决策树的分布式分类算法是有效的,一定程度上解决了对决策树局部结果的集成这个问题。
其他文献
随着虚拟现实硬件设备以及虚拟现实技术的发展,虚拟现实不仅在科研和设计等领域应用广泛,在科技展示领域也得到了越来越多的应用。应用了虚拟现实技术的科技展品比传统的科技
互联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。 搜索引擎一般由Crawler、索引库、检索器和用广接口
当今世界是一个信息时代,不管是在移动社交还是在移动电子商务、物联网平台,PUSH(推送)技术都得到了很大的应用,另外,Push技术改变了传统的“拉”信息的方式,使信息主动寻找用户,更适
本文使用语言学中的标志词假设来指导汉英翻译单元的抽耿,取得了较好的抽取效果。本文从以下三个角度对标志词在汉英EBMT中的应用进行了研究:1.在介绍了目前已经使用的英语
数字签名是信息安全领域的一个重要的研究方向。数字签名能保证报文的真实性、完整性以及签名者的不可否认性。普通的数字签名具有局限性,一旦密钥被盗,攻击者就可以伪造签名
针对近年来地理信息系统(GIS,Geographic Information System)在公共管理,科学研究和商业等领域的应用现状和配电管理的实际需求,本文以配电网GIS系统的开发为背景,根据配网管理自身的特点,讨论了适合于配电网络的空间数据组织方式,重点研究了适合配电网GIS系统的空间索引结构。 随着GIS在各个领域的广泛应用,GIS已形成了多层次和不同尺度的应用格局。既要有综合型的通
本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较;对IRT中3PLM的参数估计问题,用传统的统计估计方法解决得并不令人满意,我们应用新的估计方法——改进
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的基
分布式数据库系统是数据库系统与计算机网络相结合的产物,它主要研究在计算机网络上如何进行数据的分布和处理。对于查询操作,若是在分布式环境中,由于查询涉及的关系通常被
随着网络系统的规模扩大,网络的异构性、应用的广泛性和复杂性,以及网络服务等方面的增长,网络系统的有效管理变得越来越重要,也越来越困难。就网络系统的故障管理功能而言,管理者