论文部分内容阅读
随着大数据应用规模的急剧膨胀,可视化技术也得到了飞速的发展,它不仅能够直观且美观的展现数据之间的关系,更重要的是能够帮助数据分析师和管理者迅速做出重要决策。然而,现有的大数据可视化平台技术对于大数据探索的支撑还相对落后,具体体现为:一次传统的数据探索和分析过程往往需要数据分析师提出需求,数据工程师进行后台大数据计算,再由可视化工程师进行可视化渲染。每次数据探索都涉及到不同的工作角色和开发部门,从而需要消耗极大的时间成本,非常不利于快速多变的商业竞争环境,往往因为数据探索的效率低下导致失去了重要的决策时机。然而,相关技术在国内的研究和发展才刚刚起步。基于上述观察,本文提出并实现了一个能够进行快速探索的智能数据可视化发布系统。对于图表的自动化推导技术进行深入的研究,提出并解决两个最核心的技术难题,1)对于高维多元数据如何自动化的实现可视化展示,2)如何根据用户指定的信息对图表自动化的选择可视化编码方式并展现出来。针对高维多元数据的自动化展现问题,本文改进了表格透镜的方法,结合原始数据透视表的概念,用统一的表代数运算公式对用户输入信息进行可视化降维,这种降维方式对于图表有较强的可读性。图表智能生成并渲染问题,从数据类型推导图表类型,然后根据可表达性判断,有效性判断进行可视化编码方式的选择,最后确定能够表达且最有效表达的图表设计方式。本文提出的技术和子系统已经应用在网易在线教育产品中,为该产品运营过程中的快速决策和研发迭代提供了快速可视化数据探索工具。