论文部分内容阅读
数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。而孤立点分析是数据挖掘中的重要研究方面之一,其作用就是发现数据中的“小模式”,即数据集中显著不同于其它数据的对象。经过近20年的发展,数据挖掘技术在理论研究上日趋成熟,正不断的扩展其应用范围,当前数据挖掘已用于电信、金融、商业、气象预报、DNA、股票市场、入侵检测和客户分类等许多领域。因此,本文首先研究了基于单元的孤立点发现算法,指出了其存在的缺点:其次,提出了一种基于网格模型的孤立点检测算法。本文的主要工作可以概括为以下五个方面:(1)从孤立点挖掘的现实意义、算法、应用领域、挖掘工具、算法的评价等各个方面对孤立点挖掘问题进行了综述。(2)针对已有检测方法的不足,本文提出了一个新的孤立点检测方法,通过对数据集的网格划分与数据模型的转换来判别异常,从而有效提高算法的效率。(3)设计了基于网格的检测算法,给出了数据空间的网格划分,定义了网格内孤立点存在性阈值,提出了基于网格的孤立点检测算法,在保证算法的有效性的前提下,降低了算法的时间复杂度。(4)实现了一个异常检测实验平台ED(Elnino Detector),其中集成了所提出的算法,为异常检测提供了一个分析工具。所提供的数据接口能够从标准Elnino数据集中获取数据,并进行相应的数据浏览和分析。(5)结合气候数据收集的特点,探讨了使用异常检测来检测气候的必要性和方法。本文的研究目的是构建一个使用本文的算法从真实数据中检测异常数据实验平台,主要包括几个方面:1.给出数据空间的网格划分;2.定义网格内孤立点存在性阈值;3.提出了基于网格的孤立点检测算法:4.基于真实数据的算法验证。本文实现了一个基于Eclipse RCP的试验平台,通过对Elnino数据集的检测结果,对本文提出的算法进行了验证。试验结果表明,该算法能够得到比较好的孤立点分析结果。最后,对本文的工作进行了总结和对研究前景的展望。