论文部分内容阅读
近年来,研究者越来越重视通过应用数据挖掘技术在海量数据中发现知识和规则。在数据挖掘过程中,数据可视化技术是保证挖掘结果便于用户理解数据和进行交互的重要途经,因此数据可视化技术的发展同样受到了广泛关注。目前在数据可视化技术领域中存在以下问题:数据规模不断增加,用户对数据分析的交互性要求不断提升使得在针对大规模数据可视化时,加快可视化过程和丰富用户交互性操作成为可视化技术中亟待解决的问题。本文针对以上问题针设计了面向三维散点图的数据立方体可视化模型,其主要思想是在尽量保证原始数据分布不变的情况下,使用质量较高的可视化样本,通过对约简后的数据集进行可视化,来达到有效减少可视化时间的目的。同时本模型还支持使用多种用户交互性操作。本文的主要工作有如下几个方面:首先本文提出了面向三维散点图的数据立方体可视化模型。此模型的设计思想是将数据空间划分成若干个元数据立方体空间。每一个元数据立方体作为一个结点,构成一棵立方体树。通过对立方体树的操作进行数据空间的搜索和相关参数的计算,以此来加快对可视化数据的处理速度。然后基于对数据立方体可视化模型的操作来获取局部数据的分布情况。在此基础上本文使用改进的密度偏差抽样算法来对原始可视化数据集进行抽样,实现数据集的约简。在尽量保证原始数据分成的情况下,有效缩小了可视化数据的规模,实现了效率与效果双向目标。最后本文设计并实现了可视化原型系统。在此原型系统中将数据立方体可视化模型在三维散点图中进行应用,并根据对比实验的结果进行了分析。在此可视化原型系统中,本文设计了多种交互操作,允许用户多角度观测局部数据,观测局部数据并可以对数据进行及时更新交互,同时在设计可视化原型系统时,考虑到操作简单,界面易于理解等问题。