DataShot: 可视化简报自动生成方法

sdq
Explore, Think, Create
3 min readNov 27, 2019

DataShot[1]是一整套自动生成可视化信息简报的方法,输入信息为表格数据,输出则是美观的信息简报(FactSheet)。研究者在前期调研了245个获奖的信息简报作品和其中相应793个可视化设计元素,从全局和局部的层面进行整理与统计,将其中的每个元素与具体的可视化任务进行关联,形成了一套比较完备的知识体系用于后续的自动生成流程。完整的方法流程可以分为图1三个阶段:事实抽取,事实组合,以及视觉合成。

图1 DataShot方法流程图

事实抽取阶段:这一阶段的核心任务是抽取数据中具有代表性的事实(Fact),也就是最终简报中需要呈现的内容。首先需要对数据的子空间进行遍历,每一个子空间会关联到不用的可视化任务上,这里的可视化任务被划定为11类,分别为:数值(24.5%), 占比(15.0%), 差异(14.4%); 分布(11.5%); 趋势(10.2%); 排名(9.1%); 聚合(5.5%); 关联(4.5%); 极值(3.3%); 分类(1.4%); 异常(.6%)。针对子空间和对应的事实我们需要对其进行自动评分,评分项包括该事实的重要性和影响力,重要性主要是从子空间在关联任务上的统计特性决定,而影响力则是由子空间在整体数据上的占比决定。

事实组合阶段:对于上一阶段产生的大量事实,首先需要基于主题进行一个划分,主题选择的依据是,当多个事实都提到了某一个相同的信息时,则这些事实会被归为一类,并且此信息变为主题。比如,“iOS在操作系统中的销量排名”和“iOS在各个国家中的销量排名”都属于“iOS”这个主题。对于各个主题,可以通过其中每个事实评分的平均值来决定这个主题的整体评分,从而进行排序。在最终选出的主题里,也需要对主题中所有的事实进行一个排序,在排序过程中对所有事实进行了向量化,除了要求事实的评分尽可能高以外,也要求相邻的事实在向量空间中距离最大,同时保证事实的重要性与多样性。

视觉合成阶段:对于事实到可视化元素的过程,方法基于前期的793个视觉元素训练了一个决策树模型,输入为数据类型和任务,输出为推荐的可视化元素。同时针对每个事实,方法采用了文本的模版生成,为每个事实提供描述文字。通过流体网格布局的方法对整体的信息简报进行布局,最终提供了21种不同组合的样式和风格供用户选择。

最终的生成结果如图2所示,分别是面向游泳运动、骑车销售、奥运获奖情况等不同主题的生成结果。从生成结果上来看,DataShot可以有效降低数据探索与制作信息简报的难度,并且通过具有表现力的视觉设计来提升数据的可读性。

图2 DataShot生成效果图

[1] Wang, Yun, Zhida Sun, Haidong Zhang, Weiwei Cui, Ke Xu, Xiaojuan Ma, and Dongmei Zhang. “DataShot: Automatic Generation of Fact Sheets from Tabular Data.” IEEE transactions on visualization and computer graphics (2019).

--

--