论文部分内容阅读
数据挖掘(Data Mining,DM)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。分类分析是数据挖掘技术研究的一个重要方向。常用的分类模型有决策树、神经网络、遗传算法、粗糙集模型、统计模型等。决策树学习算法在数据挖掘技术中具有很重要的作用,本文研究了决策树学习算法中最为重要的一种ID3(Information Definition)算法,并引入用户兴趣度的概念定义了ID3的改进算法,在一定程度上解决了决策支持过程中大数据掩盖小数据的问题。 本文在概述数据挖掘技术和分类算法的基础上,提出了在传统ID3算法中引入用户兴趣度的概念来改进ID3算法,即在ID3算法的信息熵计算公式中,对信息量加权和增加用户兴趣度,使得算法不仅依赖于训练样本建立分类模型,而是在训练样本的基础上对具体属性加入先验知识调节其对分类的信息量,提高分类的准确性,并用实例验证了改进QID3算法的有效性。 此外,本文采用面向对象技术,用C++语言实现了ID3算法及其改进QID3算法。并且在此基础上开发了一个以改进ID3算法为核心的决策树生成系统(分类系统)。该分类系统面向实际应用,实现了从数据导入到生成规则的完整数据挖掘步骤,并具有处理属性值缺失数据、连续属性数据等功能。 本文还根据国税系统的实际需要,将所开发的分类系统应用于纳税评估系统,通过对国税征税数据进行分析和挖掘,生成对纳税申报不准疑点对象的有用的“分类规则”,验证了系统的可行性和有效性。对提高纳税评估的科学性、准确性具有实用价值,并具有经济效益和社会效益。