基于决策树ID3算法的数据挖掘技术研究与应用

来源 :桂林工学院 桂林理工大学 | 被引量 : 0次 | 上传用户:bigdoglsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树方法是数据挖掘的重要方法,通常用来形成分类器和预测模型。决策树方法包含多种不同的算法,其中ID3算法是决策树方法的典型代表,是决策树生成最常用的具体实现方法,它利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分枝,在每个分枝集中重复建立树的下一个结点和分枝。通过这种方式,可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小。但是,目前的ID3算法存在着偏向于选择属性取值较多的属性,而实际中属性值较多的属性却不总是最优的属性。多值偏向可能导致从数据集中归纳出错误的规则,使决策树的性能下降,因此测试属性的选择问题成为ID3算法的一个关键问题。 针对上述问题,本文提出了一种避免了多值偏向问题的ID3改进算法——NewDtree算法。该算法是以属性相似度的理论框架为基础,通过计算条件属性和决策属性的相似度,然后把相似度的大小作为测试属性的选择标准。本文应用理论分析方法对NewDtree算法不存在多值偏向问题进行了证明,通过对NewDtree算法在University of California,Irvine(UCI)机器学习数据集中的2个标准数据集训练得出的决策树进行分析,NewDtree算法能有效的提高分类的正确率,弥补了ID3算法选择测试属性时偏向取值较多的不足。 最后,为了证明NewDtree算法的实用性,本文将NewDtree算法应用于以高校就业分析为主题的数据挖掘系统中,以实现对高校就业数据的分类,建立挖掘模型,进而给该校现在的管理决策者提供决策支持。该系统实现的关键技术在于构建决策树时测试属性的选择计算,以及决策规则的存取这两个问题。通过实验证明:该算法生成的决策树提取的决策规则较ID3算法有效,分类结果与实际基本相符,极大地提高了系统的工作效率。
其他文献
审计系统是银行进行风险监督和风险管理的重要手段,如何将来自各业务系统的业务数据映射到最终的风险指标体系中的指标,是审计系统成功的关键。因此,设计一套灵活高效,可扩展的柔
中国手语环境下的自然语言处理是人工智能的一个重要分支,而手语环境下的汉语自动分词是中国自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,同时也是实现自然语
伴随着经济全球化和科学技术的迅猛发展,企业的生存环境和生存方式发生了巨大的变化。在这样的情况下,许多企业为了获得更高的利益,纷纷调整自己的策略,寻求合作的利益、创造
生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科,它是整个生命科学发展的重要组成部分,己成为生命科学研究的前沿。生
随着计算机技术的飞速发展,计算机动画、科学计算可视化和虚拟现实成为计算机图形学领域中三大重要技术,而三维真实感图形又是这三大技术的核心内容。OpenGL凭借其强大的渲染功
由于Web Service具有平台和语言的独立性,使得它受到广泛的应用,目前Web Service已经成为当今Web应用系统中不可缺少的重要内容之一。对于台式PC来说,目前已经有比较成熟的Web S
随着信息技术的高速发展,信息资源的规模愈发庞人,导致管理难度大大增加,因此需要采用有效的知识管理方法来处理海量信息。由于本体提供了对领域知识的共同理解,确定了该领域内共
粗糙集理论是继概率论、模糊集理论、证据理论之后的又一个处理不确定性的数学工具。知识约简算法是粗糙集理论的核心内容。寻找决策信息系统的最优约简或全部约简是NP问题,
学科分类体系可以揭示科学发展的规律,并能在一定程度上预测学科进一步发展的趋势,有助于科研管理工作者制定政策。随着科学知识迅猛增长,学科分类体系动态性日益明显。如何构建
长期以来,电信企业大量而详尽的电信业务数据只被简单的应用在各种业务系统中,而没有被更有效的开发利用。随着电信市场的竞争日趋激烈,如何利用这些数据为电信业提供决策支持服