论文部分内容阅读
数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的数据处理方法,是20世纪90年代初为解决“数据丰富、知识贫乏”问题应运而生的一种新技术。但是,数据挖掘的过程非常耗时,算法相对复杂,常常会发现大量的无用的知识,且容易出现偏差和错误。因此,需要采用有效的方法更清晰地观察数据的分布结构,了解数据之间的相互关系及发展趋势,理解数据挖掘的过程和结果。数据可视化技术成为解决这一问题的新的且有效的途径,已经成为数据挖掘领域的研究热点。数据可视化利用散点图、树图、曲线、曲面等图形图像来显示多维的非空间数据,用形象直观的图像来指引数据挖掘的过程,使用户加深对数据含义的理解,加快获取知识的速度。 聚类分析是数据挖掘的一项重要功能,特别对高维数据分析具有很大优势。本文以聚类算法为基础,总结和分析现有的数据可视化方法,围绕着新的面向聚类的数据可视化技术、聚类分析的过程及结果可视化技术、可视化聚类分析交互技术等方面,进行深入且细致的研究。本文的主要工作如下: (1)虽然数据可视化方面已提出了很多方法,但是对数据可视化仍然没有明确的界定。本文对数据可视化同可视化、科学计算可视化、信息可视化的关系及应用范畴作了明确的划分。详细、系统地介绍了主要的数据可视化方法,通过对这些方法和技术的介绍,可以对数据可视化的作用、运用范围、区别于其他可视化技术的特点等方面有更深入的认识,这是进一步研究的基础。 (2)现存的聚类算法众多,其中包括基于划分的聚类算法和基于层次的聚类算法等。本文在研究了现有的几种聚类算法,发现一些算法有的对脏数据敏感;有的虽不敏感,但计算量大,只适用于小规模数据量。针对这些问题本文提出了一种基于主次属性划分的聚类方法和一种新的数据可视化方法。利用数据的主属性和次属性的特征值对数据集进行聚类。实验表明,本方法算法简单、容易实现。 (3)提出一种利用彩色刺激光谱投影到RGB颜色空间的原理,通过色度学中麦克斯韦的三角平面坐标色度图对各聚类结果进行可视化显示。实验表明,通过用这种多维数据的可视化方法对聚类结果进行可视化,有利于用户全面的理解数据,为数据的预测、决策起到重要作用。 (4)一些聚类算法需要预先确定聚类个数、迭代次数或终止条件,而这些参数