论文部分内容阅读
可视分析是一门由多学科交叉发展而来的新学科领域,在大规模数据理解、挖掘、网络数据分析中发挥着日益重要的作用。通过有效的可视化技术,用户参与到知识发现和数据挖掘的过程中。本文着重研究将可视分析技术用于多维数据规律发现、多维数据聚类可视分析及结合典型的拥有多维数据特征的热门流行的微博社交网络进行应用。在分析多维数据时,本文提出一种新的可视呈现方法,用于揭示数据中隐藏的规律、模式及数据关联性。传统分析多维数据方法如平行坐标,虽然能对数据整体模式进行直观呈现,但与由维度映射成轴的摆放直接相关,且不易观察某维度上数值变化是如何引起其他维度数值、模式等信息改变。本文分别从数据及可视呈现对轴摆放进行深入研究,并从处理后的数据中抽取模式信息来指导数据重排列,布局方式是由一系列自动计算及交互调整组合生成的,将数值、模式及梯度等进行集成,映射为三层同心圆组,提供全局重排或局部重排等交互操作。最后,通过分析若干数据集验证本方法的有效性。聚类分析是重要的知识发现技术。然而,并没有通用的聚类算法能够适用所有应用领域。本文设计并实现一个在可视交互环境中的多维数据聚类分析框架。在聚类生成阶段,将多维数据映射为图并使用力导向布局展示其内部结构,使用马尔可夫图聚类给用户一个对数据的初始了解。使用Sammon投影将多维数据映射至二维平面,并支持手工选择聚类中心,还集成了k-means聚类算法。聚类评估阶段,通过平行聚类视图进行聚类分析,观察核心数据,调整维度权重,排除噪声,并及时将用户操作结果迭代反馈给所训练的数据模型。该方法能有效解决传统聚类算法的盲目性,充分利用专家领域知识,提高聚类结果可信度。微博数据是典型的多维数据集。追踪微博转发传播是一项重要有意义的工作。然而,对信息传播动态性的研究较少,且大部分都集中在对信息传播的量化分析及建模演算。本文基于可视分析角度,对传播转发的高维属性,提出三种新的策略:层次动态布局,累计转发简化布局及微群布局。对动态演变过程,提出两种新的模型:基于层次变化及基于时间变化的数据模型。提供了一系列交互功能,帮助用户动态理解探索微博数据。使用新浪微博数据验证系统的高效性及有效性,并在新浪微博得到了广泛内部应用,极大改善了数据分析师的工作效率。