基于粗糙集合理论的决策树优化方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:srepair555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘的重要任务之一,决策树模型是数据挖掘的常用分类模型,自1966年被提出以来已经得到了广泛的研究和应用。然而,由于在决策树的构造过程中采用了贪心算法,因而造成了决策树容易过分拟合、规模过大、产生的规则长度过长等特点。针对这些问题,研究人员提出了多种优化方法。本文对现有的决策树方法进行了全面的研究的基础上,提出了一种基于粗糙集合理论的决策树优化算法。本文的主要工作如下:(1)介绍了KDD的定义、基本过程、应用范围和面临的主要问题,介绍了决策树算法的应用、常用的分类模型和基于决策树的经典分类模型。(2)对现有的各类决策树优化技术进行了详细的介绍,如修改测试属性空间、改进测试属性选择方法、决策树的剪枝、对数据进行限制和改变数据结构等,并介绍了每种方法中比较经典的算法。同时对各种方法进行了定性分析,比较了各自类方法的优缺点。(3)基于以往所提出的多变量决策树模型的不足之处,本文提出了一种改进的多变量决策树算法VPMDT,该算法通过选取属性的合理组合作为分裂属性,可使得树的规模相对较小。通过实验比较,证明了我们所提出的算法的正确性和有效性。(4)基于上述研究,实现了一个原型系统,该系统通过从文本导入数据构建决策树模型,并能够通过导入测试数据计算模型的分类预测正确率。通过该系统,能够分析比较算法之间的性能差异。
其他文献
近年来,随着互联网技术的发展和普遍应用,网络越来越影响人们的生产生活方式。由于视频信息具有直观性强、内容丰富等特点,视频传输在网络传输领域占据了越来越重要的地位。
随着计算机技术、通信技术的飞速发展,越来越多的通信网络表现出了复杂的特征,它们在结构上表现为不同时期的多种结构的网络并存,由集中式逐步向分布式发展;在应用上表现为由
目前,研发人员在八位微控制器上进行软件开发采用直接在芯片上运行应用程序,或者在循环结构基础上加入简单中断处理程序的方法。但是,随着八位MCU功能的增强、嵌入式系统开发
近年来,随着互联网技术的发展,社交网络在人们的生活中扮演着重要的角色,它已成为人们生活的一部分,并对人们的信息获取、思考和生活产生不可低估的影响。在社交网络上,每天
本论文分析了以往的嵌入式视频监控系统,从中发现依赖于有线网络的嵌入式视频监控系统不方便安装、视频数据得不到保存、摄像头接口选择不当造成传输速度慢等方面的不足。针
在电信运营市场竞争日益激烈的今天,运行维护能力已经成为电信运营商的核心竞争力之一。通过运行调度系统的合理建设提高运维质量是提高运行维护能力的重要手段。国内某电信
公钥基础设施(PKI)利用数字证书为网络安全交易提供保障。PKI服务的终端实体之间进行交易之前首先要确定通信双方身份的真实性,为此需要验证通信方数字证书的可信性。在验证
我们生活在一个信息时代,语音视频技术在互联网媒体传播和应用方面已渗透到社会的各个角落,其中视频会议、视频点播、远程教育、视频转播等方面的应用空前广泛,极大方便了人
随着科学技术的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加快,如何快速获取感兴趣的信息成为人们关注的话题。信息抽取的任务是直接从非结构化/半结
目前基于链接关系的排序算法在互联网搜索引擎中占据着至关重要的作用。这类算法的提出是以“链接即投票”的假设为前提的。但是随着互联网商业化发展十几年来,这种假设已经