决策树ID3算法的研究和改进

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:fly884531973
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文首先对决策树ID3算法的局限性进行了分析,针对ID3算法倾向于选择属性值个数多的属性、学习能力有限等缺陷,提出了基于属性筛选模型的ID3算法。  改进的ID3算法采用Filter过滤器模型和Wrapper包装器模型两种属性筛选模型共同筛选属性,然后基于以信息增益率为计算原理的决策树C4.5算法对判定心理健康的数据集进行分类预测并构建决策树。在Filter过滤器模型中,用信息增益对每一个属性进行评价,计算条件属性与决策属性之间的相关性大小并进行排序。对决策属性作用较小的属性可能依然存在,基于CFS算法使用对称不确定方法去除不关联属性、冗余属性。筛选出来的属性子集用Wrapper包装器模型二次筛选,其中用BP神经网络分类算法来评价子集的价值,以便获得分类精度最高的属性集合。  其次,通过对比实验验证改进的ID3算法在决策树的规模、分类预测精度,以及所提取出的分类规则的可理解性这三方面存在着优势。  最后,基于改进的ID3算法从判定心理健康的数据集中发现隐藏的数据规律并总结出了简约的辨证规则,以可视化的形式表达出来,为实现心理康复治疗提供了客观依据。
其他文献
复杂网络社团结构的研究为人类发现更多实际意义的社团提供了更多的借鉴。本文主要研究了复杂网络的社团结构探测算法,通过对已有算法的学习和研究,改进了一种基于K-means的
随着互联网技术的不断发展,互联网已经融入了我们生活中的方方面面。评论系统是以此为背景发展起来的一个新兴产物,其广泛应用于各大社交网站,电子商务平台,以及论坛,贴吧等
软件测试是保证软件质量的重要手段,其目的在于检验软件产品是否满足规定的需求,找出软件中潜伏的各种错误与缺陷。软件测试与软件的开发方法有着紧密的联系,不同的开发方法确定
在砂轮地貌检测中,磨粒的出露高度直接影响砂轮的磨损形式,是评估砂轮磨削性能的一个极其重要的参数。因此,快速准确的掌握磨粒的出露高度及其分布信息对揭示砂轮地貌磨削机理至
Web在我们的工作、生活中起着越来越重要的作用,利用Web这个基础平台发布信息是一种常用的方式,宝莲城网站设计开发的目的同样是为了及时有效的发布信息。如今的Web应用程序
目前,WEB应用日渐成为趋势,此类软件要求用户必须在线使用。尽管当前部分网络技术已经发展成熟,但网络环境尚未达到时刻稳定的状态。另外,经济全球化使企业工作人员出差频繁。而
随着各个行业数字信息呈现指数式的增长,为方便信息组织和管理,需对海量电子信息数据按其内容进行分类,因此对文本自动分类技术提出了更高的要求。目前比较成熟的研究和应用主要
近年来,随着Web服务兴起与发展,Web服务数量急剧增加,给信息服务带来越来越大的压力,这就需要改进Web服务的描述方法,以消除服务冗余,减轻网络负担。另外,随着学术界以及产业
随着计算机、通信和网络技术的发展和普及,密码学已经从外交和军事等领域走向公开,已经发展成为一门结合数学、计算机科学、电子与通信、微电子等技术的交叉学科。随着INTERN
数字图像置乱作为一种图像加密方法或者信息隐藏的预处理手段,近年来得到了广泛的应用和高度的重视。目前,已有很多置乱算法在研究、应用中发挥着积极的作用。但总的来说还存