面向聚类的数据可视化方法及相关技术研究

被引量 : 59次 | 上传用户:sswei1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的数据处理方法,是20世纪90年代初为解决“数据丰富、知识贫乏”问题应运而生的一种新技术。但是,数据挖掘的过程非常耗时,算法相对复杂,常常会发现大量的无用的知识,且容易出现偏差和错误。因此,需要采用有效的方法更清晰地观察数据的分布结构,了解数据之间的相互关系及发展趋势,理解数据挖掘的过程和结果。数据可视化技术成为解决这一问题的新的且有效的途径,已经成为数据挖掘领域的研究热点。数据可视化利用散点图、树图、曲线、曲面等图形图像来显示多维的非空间数据,用形象直观的图像来指引数据挖掘的过程,使用户加深对数据含义的理解,加快获取知识的速度。 聚类分析是数据挖掘的一项重要功能,特别对高维数据分析具有很大优势。本文以聚类算法为基础,总结和分析现有的数据可视化方法,围绕着新的面向聚类的数据可视化技术、聚类分析的过程及结果可视化技术、可视化聚类分析交互技术等方面,进行深入且细致的研究。本文的主要工作如下: (1)虽然数据可视化方面已提出了很多方法,但是对数据可视化仍然没有明确的界定。本文对数据可视化同可视化、科学计算可视化、信息可视化的关系及应用范畴作了明确的划分。详细、系统地介绍了主要的数据可视化方法,通过对这些方法和技术的介绍,可以对数据可视化的作用、运用范围、区别于其他可视化技术的特点等方面有更深入的认识,这是进一步研究的基础。 (2)现存的聚类算法众多,其中包括基于划分的聚类算法和基于层次的聚类算法等。本文在研究了现有的几种聚类算法,发现一些算法有的对脏数据敏感;有的虽不敏感,但计算量大,只适用于小规模数据量。针对这些问题本文提出了一种基于主次属性划分的聚类方法和一种新的数据可视化方法。利用数据的主属性和次属性的特征值对数据集进行聚类。实验表明,本方法算法简单、容易实现。 (3)提出一种利用彩色刺激光谱投影到RGB颜色空间的原理,通过色度学中麦克斯韦的三角平面坐标色度图对各聚类结果进行可视化显示。实验表明,通过用这种多维数据的可视化方法对聚类结果进行可视化,有利于用户全面的理解数据,为数据的预测、决策起到重要作用。 (4)一些聚类算法需要预先确定聚类个数、迭代次数或终止条件,而这些参数
其他文献
介绍了堆垛式立体车库的结构及工作原理,分析研究了影响车库设计方案的主要因素。给出了立体车库设计方案的优化数学模型,并用MATLAB语言进行仿真计算求解,对其优化结果进行
随着世界经济一体化和贸易全球化的发展,跨国公司(MNCs)日益壮大成为各国税收的重要来源,但跨国公司越来越多的利用转让定价逃避税收,给各国税收带来严重损失。自70年代起,西
文章首先对西方金融学界关于货币政策传导机制的主要学派的主要理论观点进行评析。接着对中国金融理论界关于货币政策传导机制的研究状况和主要观点做了回顾分析。 其次,对
采用二维数值仿真的手法,系统的探讨了存在于非平坦的不透水层上的海岸带含水层的天然地下水面、咸淡水界面伴随着潮汐波动而变化的规律。即伴随着潮汐的波动,天然地下水面和
<正>一、金融检察专门机构职能模式评析金融检察专门机构,是指依法专门成立并办理金融案件、履行金融检察职能的机构,包括履行金融检察职能的派出检察院、检察处、检察科、检
中华文化面向中亚传播对于提升中华文化在中亚社会的影响力具有重要意义。与美俄等国家相比,中华文化在中亚的传播仍有一定的差距。因此,一方面,要创造性地整合政府、企业和
对高取代度羧甲基淀粉(CMS)的生产工艺和不同取代度产品的性质进行研究。结果表明:高取代度CMS生产的工艺参数为:一氯乙酸/淀粉(摩尔比)0.9,NaOH/淀粉(摩尔比)1.8,温度55℃,
我国现行行政诉讼法第50条规定:“人民法院审理行政案件不适用调解。”随着行政诉讼实践的发展,这条规定越来越不符合实践的发展,越来越多的法律专家及学者对此提出了质疑。
词汇和语音、语法一起构成了语言的三大要素,其重要性不言而喻。但在第二语言理论与实践中,研究者对词汇教学的认识却经历了一个曲折的过程。从我国上个世纪30年代到90年代的外
<正>1.中国式:阴阳调和男女互补性爱理念与技巧在中国现代社会里,常被人们扭曲,认为是低级下流、污秽不堪的,可在不少中国古代的性学书籍中,不但强调"房中术"(性爱技巧)的重