论文部分内容阅读
近几十年来,随着计算机硬件和软件的迅速发展,尤其是Internet技术的快速进步,人们收集到的数据以令人吃惊的速度日益增加,形成了一个浩瀚无边的数据海洋。如何从海量数据中寻找到隐藏在数据背后的有用知识成为了一个热门的研究课题。数据挖掘正是解决这样一个问题的新兴领域。在数据挖掘中,可视化技术有着广泛的应用。在数据挖掘中使用可视化技术,让我们可以结合人的视觉优点和主观认知,使数据挖掘过程具有直观性和可交互性,从而挖掘出更有价值并易于理解的信息。本文在一个基于Web的分布式挖掘系统MinerOnWeb的基础上,对数据挖掘中的可视化技术及其实现进行了重点研究。本文阐述了数据挖掘系统MinerOnWeb的详细设计与实现。MinerOnWeb系统是为了给用户提供在线的数据挖掘服务而设计的系统。它的开发遵循J2EE规范,采用了Struts架构。它主要集成了一些成熟的分类、聚类和关联规则挖掘算法,能够处理多种文件格式的数据。基于这个系统,本人重点研究和分析了两种数据挖掘可视化技术,然后将这些技术在MinerOnWeb中加以实现:1) 2维柱状图:与传统的柱状图不同,这种柱状图的横坐标表示一个数据维(属性),纵坐标表示数据记录数。这样我们可以看出数据在这个属性上的分布情况。柱图上的颜色表示第二个数据维(属性),不同的颜色表示不同的属性值。通过这样的图形化方式,我们可以同时观察到两个数据属性的分布情况以及两个数据属性之间的联系。2)基于星型坐标系的散点图:这是一种将多维空间内的数据映射成二维平面上的点的方法。每一个数据维被都被映射成二维平面上的轴线,这些轴线都相交于一个中心点,构成星型坐标系。然后数据在被最大最小规格化之后,通过一种被称为α映射的方法映射到二维平面的星型坐标系中。二维平面上的数据点可以通过用户调节α值来动态地显示,使用户得以从不同角度观察数据。由于这种可视化技术非常适合聚类数据的可视化,本文基于这种可视化技术,讨论和分析了一种基于人工标记的可视化聚类分析方法,归纳了两条用于发现聚类的规则,然后将这种可视化技术与自动聚类算法相结合,研究了一种基于聚类算法的交互式可视化聚类分析方法。