论文部分内容阅读
计算机网络与数据库技术的迅速发展和广泛应用,使得“丰富的数据与贫乏的知识”问题亟待解决。因此,我们必须寻求新技术和自动工具,以便帮助我们从大量数据中找到潜在有用的信息和知识。数据挖掘技术和KDD(数据库中的知识发现)系统作为一种崭新的技术和工具,能自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。 数据挖掘是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是知识发现过程的一个基本步骤。KDD是一门交叉学科,它涉及统计学、数据库技术、计算机科学、模式识别、人工智能、机器学习等多个学科。 数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。本文探讨了数据挖掘在政府部门的应用,并给出一个具体的实例。在对SAS提供的各种数据挖掘工具和方法比较之后,选择了适合本课题需要的方法应用于海关总署直属海关执法评估系统的开发项目中,并取得了满意的结果。 论文共有八章: 第1章:简略介绍了知识发现和数据挖掘的概念与发展现状、知识发现的过程与数据挖掘的分类、本课题的研究背景和意义以及论文的主要研究内容。 第2章:介绍数据挖掘之前的数据预处理技术。讨论数据清理、数据集成和变换、数据归约的方法。 第3章:介绍基于回归模型的预测方法。包括多元线性回归、曲线回归以及逐步回归模型。 第4章:介绍聚类分析方法。首先介绍聚类和分类的概念,然后讨论了十一种数据聚类方法。 一 第 5章:介绍决策树方法。详细阐述了决策树的构造算法,并提出在数 据挖掘中应用决策树方法时需要考虑的问题和解决的方法。 第 6章:介绍神经网络方法。主要讨论人工神经元与感知器以及人工神 经网络模型,包括BP神经网络和RBF神经网络。 第7章:介绍海关执法评估系统的开发环境和有关方法、功能需求与设 计分析以及开发与实现。 第8章:提出了数据挖掘算法下一步的发展方向。