论文部分内容阅读
数据挖掘技术是一个从大量数据中发现潜在知识的过程,其主要目的就是从大量的、不完全的、有噪声的应用中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识。离群数据是明显偏离其它数据、不满足数据的一般模式或行为,与存在的其它数据不一致的数据。当前离群数据挖掘已应用于电信、金融、气象预报、股票市场、入侵检测等许多领域。离群数据挖掘包括了离群数据发现和离群数据分析两部分,离群数据分析与背景知识有关,本文着重讨论了离群数据挖掘中的最关键问题-离群数据的发现问题。本文通过研究不同的离群数据挖掘算法的特点,提出了改进的基于密度的离群数据挖掘算法,并将改进后的算法应用于网络入侵检测。具体来讲,本文的研究工作主要包括以下几个方面:①研究了离群数据挖掘的现状及过程、研究离群数据挖掘的意义、离群数据挖掘与数据仓库的关系。通过对知识发现一般过程的分析,给出了一个典型的离群数据挖掘系统的整体框架,分析了各模块的功能,并对其中采用的数据挖掘技术进行了详细的阐述。②全面研究了现有的离群数据挖掘算法,分析了常用的离群数据挖掘算法的优点和缺点、适用范围。③在现有基于密度的离群数据挖掘算法、DBSCAN算法和CURE算法的基础上,提出了改进的基于密度的离群数据挖掘算法,实验表明改进后的算法优越于原算法。④将改进后的算法应用于网络入侵检测,通过检测率和误报率两个方面对改进的算法进行了评估。⑤对离群数据挖掘未来的发展方向做了一下展望。本文通过实验来评估改进算法的性能,其实验数据来源于J?rg Sander的OPTICS算法的实验数据集和KDD CUP1999数据集。实验表明该算法具有很好的检测效果,总的来说,本文提出的算法在实验中取得了令人满意的效果。