论文部分内容阅读
目前,数据挖掘在很多领域都是比较热门的一个话题,它是一个从大量的原始数据中发现潜在知识的过程。离群挖掘的主要目的是从大量的、不完全的、有噪声的各种数据中,发现隐含在其中的人们事先不知道但又具有潜在价值的信息或者知识。而离群数据是这样一种数据:它明显偏离其它数据、不满足数据的一般模式或者行为。离群点可能是“噪音”,但也可能是有意义的事件。实际情况下,在某些应用中,那些很少发生的事件很可能比经常发生的事件更有研究价值。因此,离群数据挖掘是一项非常重要且有意义的研究工作。离群数据挖掘已广泛应用于股票市场、电信、金融、入侵检测、天气预报等许多领域。离群数据挖掘包括两部分:离群数据检测和离群数据分析。本文主要研究了离群数据挖掘中的关键问题——离群数据的检测,通过分析几种离群数据挖掘算法的优缺点,提出了基于两次聚类的KNN离群数据挖掘算法,并通过在综合数据集上的实验验证了算法的准确性、高效性以及扩展性,最后将此算法应用于一个论坛注册用户行为的挖掘。本文的主要工作包括如下几方面:1.阐述了离群数据挖掘的国内外现状及其研究的意义、离群数据挖掘的过程及其与数据仓库的关系。综合分析了现有的离群数据挖掘算法,研究了常用的几种离群数据挖掘算法,分析了它们的优缺点、适用范围等。2.详细分析了两种基于KNN的离群数据挖掘算法,并在这两个算法的基础上提出了基于两次聚类的KNN离群数据挖掘算法,在综合数据集上的实验结果表明:基于两次聚类的离群数据挖掘算法是准确的,且较之于原算法更加高效。3.将基于两次聚类的算法应用于一个论坛注册用户的行为分析,结果证明了算法的准确性。论文通过在综合数据集以及真实数据集下进行的实验来评估基于两次聚类算法的性能。实验数据分别来自于UCI机器学习库、自动随机生成数据和一个团购导航网站论坛的注册用户。实验结果表明该算法准确且高效,实验取得了令人满意的结果。