决策树分类算法的并行化研究及其应用

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:williamt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化进程的不断推进,针对工业、商业、金融和信息检索各种应用所产生的巨大数据集而进行的算法研究,已经成为数据挖掘领域研究的主要动力。数据量不断增加,如何处理海量数据成为数据处理的一大难点。解决这个问题有两种方法:一种方法就是减少响应时间的采样方法,但在一些情况下,减少训练数据集可能会导致计算模型不准确,更为严重的是,挖掘模型可能根本没有用,如轮廓识别、异常点识别等;另外一种方法就是并行计算方法。并行计算方法是相对于串行计算方法来说的,所谓的并行计算分为空间上的并行和时间上的并行。空间上的并行是指用多个处理器同时执行计算,而时间上的并行则是指流水线技术。并行数据挖掘和高性能计算机结合在一起,就能为挖掘海量数据集提供一个最佳的研究方案。在众多的分类算法中,决策树具有出色的数据分析效率和排除噪音的强壮性,具有易于提取显示直观易懂的分类规则和易于显示重要的决策属性等优点,是典型的以逻辑模型的方式输出的分类结果的数据挖掘技术。目前学者们已经开展了对决策树并行算法的研究,但是存在着通信量过大、数据分布不合理、负载不平衡和可扩展性差等问题,出现了算法性能随数据量的递增而下降的情况。为解决现有决策树并行算法中存在的问题,本文搭建了并行计算环境,并对决策树并行化进行了认真分析,给出了决策树构建的并行性方案。在对决策树的并行训练策略进行性能分析的基础上,选择了横向数据划分方法,保证了决策树的精度。采用C语言设计并实现ID3并行算法,该算法在执行效率、减少时间复杂度方面具有较好的性能。最后将ID3并行算法应用于学生考试成绩的实例中,得到决策树模型以及决策规则。
其他文献
互联网为信息的共享和交互提供了一个便利的平台,但其开放性同时也对信息的安全性提出了严峻的挑战。在现代互联网高速发展的同时,计算机安全问题日益突出,信息安全已经逐渐
域名系统(Domain Name System, DNS)是Internet的核心技术之一,提供了针对域名和IP地址间相互映射的解析服务。人性化的域名为Internet用户接入互联网的操作提供了便利,域名
射频识别技术(Radio Frequency Identification,RFID)是一种非接触式自动识别技术。随着 RFID技术的不断发展,它所应用到的领域和地区在不断扩大,草原畜牧业作为地区经济发展的
支持向量机(Support Vector Machine,SVM)是近年来受到广泛关注的一类学习机器,它以统计学习理论为基础,具有全局最优、适应性强、推广能力强等优点,已成功应用于模式识别、
油气储层在我国石油工业中占有非常重要的地位。三维地质模型数据量庞大,一般包括数百万到数千万个三维网格体数据,通常不能把这样的地质模型直接应用到模拟系统中。对这样大
图像配准是图像处理领域的一个重要研究方向,是完成图像融合工作最基本的一步,在医学、遥感和军事等领域具有很强的应用价值。虽然同一场景的多模态图像在灰度属性和分辨率等
网络最重要的功能就是实现信息的传输与共享。现有网络中的数据都是依靠中间节点以“存储-转发”方式来传送。在实际应用中也先后出现了C/S和P2P架构,它们具有简单存储转发机
日益发展的网络和飞速膨胀的信息给人们带来了很多的便利,人们已经开始习惯于上网发布信息,查找资料,网上科研。各种各样的应用系统和web服务出现了丰富的数据资源。为了能有
Java是一门应用很广的流行语言。它有良好跨平台性和优秀的安全性等优点。但是同时运行速度低下一直成为它不足。本文试图从两个方面入手针对Java运行时性能进行调优。一方面
随着中国石油勘探与生产分公司信息门户应用的不断深入,新的需求不断涌现,需要对门户现有的功能进行扩展。SharePoint门户应用是微软.NET技术之上,随着.NET框架不断发展的一