论文部分内容阅读
数据挖掘是近年来信息产业界讨论和研究的一个热点。由于当代计算机技术尤其是数据库技术的飞速发展,人类面对史无前例的海量数据,因此迫切需要将这些数据转换成有用的信息和知识,并将这些信息和知识运用于各种应用中。其中例外检测就是其重要分支之一,例外检测往往可以使人们发现一些既真实而又出乎意料的知识。有些研究把例外数据当成噪声、污染,想通过忽略这些例外数据来提高数据的质量,但是有些有用的信息,重要的知识,恰恰被忽略掉了,因为这些例外数据表示了一种偏差或新的模式的开始。
例外检测是数据挖掘领域的热点之一。例外数据检测,是许多应用领域工作的基础和前提。通过对例外数据的偏差分析,能发现新的知识,新的模式。例外数据检测具有特殊的意义和很高的实用价值,如金融、通信领域的欺诈分析与监测、医疗分析、网络入侵监测、消费极高或极低客户的消费习惯、过程控制中的故障检测与诊断等。对例外数据的挖掘研究比对正常数据的挖掘研究更有意义。本文针对高维数据的稀疏性,提出了连续数据上基于贝叶斯网的子空间例外检测方法,该方法能有效识别子空间上的例外点。
本文主要内容由以下几部分组成:
首先,介绍了例外检测及贝叶斯网的相关知识,分析了现有例外检测算法的优点和不足。
其次,定义了子空间例外的概念,分析了贝叶斯网和子空间的关系,介绍了利用贝叶斯网检测子空间例外的方法;
然后,针对连续属性数据,贝叶斯网中参数太分散的不足,对连续属性进行离散化。
最后,在UCI数据集上进行实验验证。