基于HperMap的多维数据可视化聚类方法及应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhangzzxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多维数据可视化是将多维数据展现在低维空间中,使得用户更容易发现隐藏在数据中的某些特征,对于数据分析和知识发现具有重要意义。为了保证可视化结果的可靠性,需要在降维过程中最大程度地保持数据的结构信息。  本文基于HyperMap的降维可视化方法,从优化的角度提出改进算法,一方面优化目标空间坐标轴的选取,另一方面优化组合权重,以得到最佳的可视化结果,保证可视化过程中最大程度地保持原始数据的结构信息。进一步将可视化方法与聚类方法相结合,形成基于HyperMap的可视化聚类方法。最后,将本文的可视化聚类方法应用到教育数据分析和我国创意产业数据分析中,结果表明本文方法具有较好的实用价值。本文的主要研究工作如下:  (1)在介绍FastMap方法和HyperMap方法的基础上,分析了FastMap方法和HyperMap方法的优缺点。其中,HyperMap方法是FastMap方法的改进。这两种方法的本质都是将多维原始数据转化成保持数据结构的低维数据,再将低维数据进行可视化,通过可视化图形观察原始数据的结构信息。降维过程主要分为两步,首先通过选择枢纽点确定目标空间中的坐标轴,然后计算数据集中的样本点在这些坐标轴上的投影坐标。所有样本点在某个坐标轴上的坐标形成一个特征向量。FastMap方法和HyperMap方法主要存在两方面的问题,首先,这两种方法均不能选择最佳的枢纽点,因而不能选出最佳的目标空间的坐标轴。其次,只给出信息损失程度的度量方法,没有指明如何使信息损失达到最小。  (2)提出了改进的HyperMap可视化方法并将其与聚类方法结合,进而形成可视化聚类方法。鉴于FastMap方法和HyperMap方法存在的问题,本文主要进行了两方面的改进。一方面,选择数据集中距离最大的点作为枢纽点,从而选出最佳的坐标轴。另一方面,使用应力函数建立优化模型,通过对模型参数权重的优化,求出最佳的权重组合,从而保证可视化过程信息损失达到最小。另外,可视化结果可以沿任意方向旋转,以消除不同的观察角度对可视化结果的影响。数值实验表明,改进的HyperMap方法提高了HyperMap方法的性能,可以有效应用于多维数据的可视化分析中。将可视化与聚类方法相结合,形成可视化聚类方法。数值实验表明本文可视化聚类方法具有可行性和有效性。  (3)将本文的可视化聚类方法应用到教育数据分析和创意产业数据分析中。阐述教育数据分析中的分类指导问题,并完成数据处理、可视化聚类、分类指导时间制定的过程,为解决分类指导问题提供参考依据。另外,对我国60个主要城市的创意产业数据进行可视化分析,对创意产业总体数据进行排序和群组划分。对生成的经营状况数据进行可视化分析。实验结果表明,本文的可视化聚类方法可以直观地展示数据结构信息,并可以结合聚类方法提高聚类的准确性与合理性,对于分析实际数据,具有一定的实用价值。
其他文献
<正> 一、在旅部 1942年夏,我在新四军第一师第三旅政治部负责旅报《先进报》工作。这时正值一次反“清剿”斗争胜利结束,部队住在南通地区的一个村子里休整。一天上午,旅政治部主任卢胜同志的警卫员忽然来到编辑部通知我们说:“有一个大新闻记者来了,卢主任要你们快去接待他。”我和编辑卞庸中同志等随即跟着他来到政治部,只见卢主任正在和那个“大新闻记者”亲切地交谈着,还不住地向他敬茶。他每接过茶杯都仰起脖子
在现代企业竞争中,企业生产方式已由原来的单品种大批量式向多品种小批量式转变,传统的依靠经验或者历史数据的报价方式已经不能适应现代生产的需要了。又由于需求的不确定性会
留心西方主要政治、外事、时事报刊、杂志的,没有不知道拉南·卢里的。这位犹太裔美籍漫画家的作品见载于全世界四百多家报刊、杂志,这些报刊、杂志的发行量总计为六千二百
普及科学知识,提高全民的科技素质。强化人民的科技意识.报纸科学副刊的“渗透”作用是不可低估的。我们在编辑北京晚报《科学长廊》副刊的过程中,逐渐确立了一个方针,即突
贵州是个多民族的省份,除汉族外,有苗、侗、彝、水、瑶、壮、回、白、满,布依、仡佬、土家12个少数民族。这些少数民族共有人口740多万,占全省总人口的四分之一强。全省80多
Sagittal otoliths morphology were compared to identify five Pampus species of the Chinese coast(Chinese pomfret Pampus chinensis, grey pomfret P. cinereus, sout
在制造企业纷纷从产品提供商向服务提供商转变的背景下,物联网等新兴技术对服务化进程起到了很大推动作用。远程监控技术作为物联网核心技术之一,近年来在制造业得到了广泛应用。许多制造企业在服务化转型过程中基于远程监控技术向客户提供设备产品相关服务,这种服务作为传统服务模式与服务渠道的有效补充,让制造企业能够在产品销售后实时采集其产品运行数据,控制产品运行状态和参数,提供更有效和及时的状态维修与智能维修,提
信道估计是指接收机获知信道状态信息的方法和过程。信道估计的准确度决定了接收机的工作性能,所以均衡之前,必须先进行信道估计。目前,激光光学传输信道估计成为多输入多输
工程项目的工期-成本-质量多目标优化问题,是典型的NP-hard难题:在一定的约束条件下,通过某种方法处理目标间的冲突、求出问题的最优解,以确定最优的方案组合、实现三大目标的整
传统的口碑传播存在着地理限制、传播范围有限等局限性。借助于日益发展的信息技术和互联网技术,网络用户可以突破地缘限制,随时随地和其他用户进行沟通,口碑的传播范围得到极大