层次数据探索的可视分析方法研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:tjhaixin2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
层次数据广泛存在于实际生活中如图书馆目录、分类学和物种发展史等。其将数据组织成不同细粒度层次的特点,有利于人们对数据的理解和认知。但伴随大数据时代的到来,现有层次数据不仅结构庞大同时各节点蕴含丰富的多维属性信息,这给数据的认知带来挑战。可视化和可视分析作为探索认知数据的有效手段,但现有的可视化方法对于探索现有的复杂层次数据的方法较少,如何快速探索分析大且复杂的层次数据,为决策者进行辅助判断,是一个有待探索挖掘的问题。本文针对该问题,基于重要性节点评估算法、关键子结构算法、机器学习等构建了一套层次数据的可视探索框架,用于辅助探索层次数据的结构特征信息和属性信息。本文的主要工作内容如下:(1)对于大型层次数据,在一次有限的可视编码空间范围内,易出现分支拥挤和节点遮蔽等现象,用户在探索分析其拓扑结构特征信息时具有挑战性。针对该难点,提出了一种面向拓扑感知的层次结构信息探索框架。该框架由重要节点评估、关键子结构、相似结构三大模块组成。为解决分支拥挤节点遮蔽等问题,提出采用重要节点评估的方法来进行解决,该方法通过对以重要节点为根的子结构以视觉编码的形式进行隐藏,同时能保留较多的结构信息的条件,提高了用户探索拓扑结构信息的效率。为帮助用户理解整体拓扑结构特征,基于文本关键词的思想,定义了一种层次数据关键子结构的提取方法,通过提取关键子结构对整体拓扑结构信息进行概要。为提高用户对相似子结构的探索对比分析的效率,基于图表示学习算法将层次结构的节点进行向量化表示,通过将节点向量进行高斯混合聚类构建相似子结构集合,然后基于向量的欧式距离计算子结构的相似度分数,通过相似度分数排序后完成相似子结构的提取。(2)为便于数据分析师快捷的探索分析具有多维属性信息的层次数据。设计了一个多维层次数据属性信息探索框架。该框架由属性评估、图表推荐、图表编码规则三大模块组成。属性评估模块采用随机森林算法进行评估,筛选与分析师当前关注的焦点属性重要性程度最高的属性集合,将该集合传入基于双向LSTM模型训练的可视图表分类模型中完成对不同属性组合采用何种类型图表可视化进行预测,图表编码规则根据推荐的图表类型进一步完成可视化编码。该框架使得分析师只需关注焦点属性,无需担心属性组合的可视编码。(3)基于以上方法设计了层次数据可视探索原型框架。通过可视分析系统完成了两项案例分析和两项用户实验证明了所提的层次数据可视探索框架的有效性。通过模型评估实验验证了本文推荐模型的准确率达到了94%,同时通过案例评估和用户评估验证了整个多维层次数据探索框架的有效性。
其他文献
近年来,深度学习技术的快速发展为图像处理带来了新的机遇,特别是在图像分割、图像识别、图像理解等方面。图像分割是将图像中边缘、区域等特征提取出来,支撑图像处理下游任务,在学术界和工业界受到广泛关注。全景分割融合了图像分割的语义分割与实例分割结果,在图像深入理解场景,如视频监控、自动驾驶、医学图像诊断等发挥了重要作用。全景分割完成对图中的所有物体的背景进行检测与分割,主要分为特征提取、语义与实例分割、
学位
图表示学习将图中节点从高维、稀疏的网络空间映射到低维、稠密的向量空间,映射过程中保持原始的网络结构并支持图推理。通过图嵌入得到的向量规范性更强,可直接作为下游如节点分类、链接预测或可视化等机器学习任务的输入。图表示学习在链接预测任务上效果良好,但在节点分类任务中表现不佳,这是由于节点类别通常与领域内节点的拓扑结构、重要性特征、属性特征及其类别标签信息密切相关。针对节点分类的图表示学习做了如下研究:
学位
开放关系抽取能在不预设关系词表的情况下,对语料进行灵活的关系抽取,快速对知识进行有效的组织、整理。然而开放关系抽取的语料通常包含大量结构复杂的文本。现有的开放关系抽取方法在抽取这类复杂文本时,效果较差,主要存在如下问题。一是句子结构复杂,难以分析出准确的句法分析结果为开放关系抽取提供数据支持。二是复杂文本中的实体词通常是由多个词语构成的名词短语,识别难度较大。三是复杂文本存在关系重叠的现象,以往的
学位
自从进入21世纪以来,全球变暖一直是人们讨论的热门话题,全球年均气温在十年间仅仅上升0.03℃,正是这个极小数据的出现,使人们对“全球变暖”持怀疑态度。研究全球温度变化需要有长时间的观测数据做支撑,目前主要存在如下问题:一是气候数据搜集面临数据体量大,质量低,技术、勘测等种种困难;二是影响气候属性成分越来越复杂,现有模型难以准确预测气候变化;三是极端天气气温相对整体平均温度差别较大,处理困难,对全
学位
目前大量涉及自动驾驶汽车的事故,表明自动驾驶系统软件仍然存在严重的可靠性和安全性问题,对其进行充分有效的测试具有重要的研究意义。对现有自动驾驶系统测试方法的调研发现,很多测试方法并没有完全覆盖真实的驾驶场景,同时合成测试场景图像质量也有待提高。为此,本文利用深度学习技术合成接近真实的复杂场景图像,应用蜕变测试检测被测试自动驾驶系统的潜在缺陷,以达到有效保障自动驾驶系统软件质量的目标。本文的主要研究
学位
聚类算法是机器学习中最常见的无监督学习算法之一,在现代数据科学中发挥着重要的作用。传统聚类算法的主要任务是根据某些特定的规则将相似度高的数据对象划分到相同的簇。当数据对象的某些属性(例如性别,种族等)需要在每个簇中保持平衡时,传统的聚类算法不再适用,这种聚类任务被称为公平聚类。尽管机器学习界近些年在算法公平性问题上做了大量的研究工作,但是对于聚类算法公平性的认识仍处于起步阶段。针对当前公平聚类研究
学位
根据2021年《全球移动市场报告》调查所示,2021年全球的手机用户达到了39亿。大量的手机用户,产生了大规模的通信数据;主要包括网络接入数据、呼叫详情记录(Call Detail Record,CDR)等。其中CDR数据中包含了用户的时间和空间信息。这些为研究城市中公民的移动行为分析提供了基础。但是CDR数据有着规模大、时间跨度长、离散程度大等特点,很难直接进行研究分析。可视分析技术可以将数据映
学位
流场数据中往往包含了速度、涡量、压力和温度等多方面的流场信息,它们之间的关系是理解流体流动问题的关键,并且不同空间区域的流场特征、规律存在差异,致使单个用户进行流场数据分析的质量和效率不容乐观,需要团队共同提供新的思路和解决方案,以提高流场分析的效率和结果的正确性。现有工业级流场可视化软件(Ensight,Paraview等)虽然具备一定的团队协同能力,但是其支持的协同模式单一,不能满足现阶段流场
学位
视觉故事生成是最近兴起的一个研究方向,旨在从一个离散图像序列生成主题一致、情节连贯和表达丰富的故事,并在文学创作及教育行业具有广泛的应用价值,不仅可以减少文字工作者的工作量,同时也可以为少儿教育及考试提供丰富的素材;研究视觉故事生成对多模态文本生成任务的发展也有促进作用。由于图像序列中的各图像间可能不具有直接相关性,挖掘图像之间的关联性较为困难,目前方法生成的故事主要存在主题不一致、情节连贯性差、
学位
随着网络科学的不断发展,网络分析被广泛应用于各个领域,帮助分析复杂系统中的实体关联、异常勘探、传播模式、预测等,而网络可视化是进行网络分析高效直观的途径。复杂系统中实体间的关联模式与属性密切相关,对于由实体对象及其属性共同构成多元网络(multivariate networks,MVNs)进行可视分析也相较于仅考虑拓扑结构或单一属性的网络存在更多挑战。多元网络可视分析在网络布局和交互分析中面临以下
学位