论文部分内容阅读
数据挖掘是从大数据集中自动或方便地发现知识模式。可视化技术是一种表示数据对象的技术,在数据挖掘中主要可以应用于数据对象与数据挖掘过程可视化等方面,常常需要处理大数据集。目前,可视化技术一般是用于数据挖掘中的数据对象可视化,而数据分析方法及挖掘过程本身常常没有进行有效的可视化。可视化与数据挖掘技术之间的关系是松散的。将可视化技术应用于数据挖掘中,或者建立可视挖掘方法是有关可视化与数据挖掘的一个交叉研究课题。这种研究需要建立在合理的认知基础和依据之上。一方面需要分析研究这种方法的理论与技术基础,另一方面还需要考虑到挖掘对象的属性的可视特征与人们对可视特征的认知基础和依据。将可视化技术用于数据挖掘时主要可以考虑两个方面,一个是挖掘算法运行过程的可分性,也就是算法运行过程分解对结果不产生变异的可行性;另一个是确定算法及度量标准中的关键因素,并找出其对挖掘结果的影响。为了更好地说明多维数据的可视化效果,应该使对可视化对象的处理能够对应到对数据对象的处理,这样可以在一定程度上实现在可视化应用中引进必要的度量指标。引进合适的应用于量化的度量指标,有助于改进可视化技术,并设计适用的可视化技术的评测指标,建立实用的评测模型。基于度量指标的可视化技术在对可视对象的分析处理上可以借助适用的数学方法建模与评测,这有助于数据挖掘可视化的研究与应用。基于可视化度量指标的数据挖掘算法的应用,提供了一种可视的数据挖掘方法。在数据挖掘过程中,通过可视化技术的应用,有助于发现数据的特征。将度量指标作为一种评测指标,通过改进参数与过程,可以改进挖掘结果。本论文针对数据与数据挖掘可视化模型的形式表示、可视化技术的度量模型及其应用方法等作了研究。本论文的主要工作包括以下方面:(1)分析研究数据挖掘中可视化技术应用的特点与方法。给出了数据对象与数据挖掘过程的可视化表示的一般数学形式,即数据对象的转换模型、关联可视化模型、关联统计可视化以及过程可视化模型。(2)提出了描述数据属性间特征的影响度概念,基于图标技术,提出相应的可视化表示及可视计算方法,并将概念与方法应用于数据对象及与数据属性相关统计信息的可视化表示。实验表明,该方法用于数据可视化与数据分析是简单有效的。(3)提出了一种基于平行坐标技术的度量模型及相应的指标体系,证明了其中的相关性质与结论,形成了一套基于平行坐标技术的度量模型量化理论,并研究了度量指标在聚类分析算法K-means中的应用方法。实验表明,提出的度量模型和度量指标在数据与数据挖掘可视化应用中是有效的。(4)介绍了八叉树在数据挖掘中的运用以及设计实现的三维数据可视化平台。介绍了基于平行坐标技术的关联规则的可视化方法,以及基于多边形技术在多维数据可视化中的应用方法。