DataShot: 可视化简报自动生成方法

Published in

Explore, Think, Create

3 min readNov 27, 2019

DataShot[1]是一整套自动生成可视化信息简报的方法，输入信息为表格数据，输出则是美观的信息简报（FactSheet）。研究者在前期调研了245个获奖的信息简报作品和其中相应793个可视化设计元素，从全局和局部的层面进行整理与统计，将其中的每个元素与具体的可视化任务进行关联，形成了一套比较完备的知识体系用于后续的自动生成流程。完整的方法流程可以分为图1三个阶段：事实抽取，事实组合，以及视觉合成。

事实抽取阶段：这一阶段的核心任务是抽取数据中具有代表性的事实（Fact），也就是最终简报中需要呈现的内容。首先需要对数据的子空间进行遍历，每一个子空间会关联到不用的可视化任务上，这里的可视化任务被划定为11类，分别为：数值(24.5%), 占比(15.0%), 差异(14.4%); 分布(11.5%); 趋势(10.2%); 排名(9.1%); 聚合(5.5%); 关联(4.5%); 极值(3.3%); 分类(1.4%); 异常(.6%)。针对子空间和对应的事实我们需要对其进行自动评分，评分项包括该事实的重要性和影响力，重要性主要是从子空间在关联任务上的统计特性决定，而影响力则是由子空间在整体数据上的占比决定。

事实组合阶段：对于上一阶段产生的大量事实，首先需要基于主题进行一个划分，主题选择的依据是，当多个事实都提到了某一个相同的信息时，则这些事实会被归为一类，并且此信息变为主题。比如，“iOS在操作系统中的销量排名”和“iOS在各个国家中的销量排名”都属于“iOS”这个主题。对于各个主题，可以通过其中每个事实评分的平均值来决定这个主题的整体评分，从而进行排序。在最终选出的主题里，也需要对主题中所有的事实进行一个排序，在排序过程中对所有事实进行了向量化，除了要求事实的评分尽可能高以外，也要求相邻的事实在向量空间中距离最大，同时保证事实的重要性与多样性。

视觉合成阶段：对于事实到可视化元素的过程，方法基于前期的793个视觉元素训练了一个决策树模型，输入为数据类型和任务，输出为推荐的可视化元素。同时针对每个事实，方法采用了文本的模版生成，为每个事实提供描述文字。通过流体网格布局的方法对整体的信息简报进行布局，最终提供了21种不同组合的样式和风格供用户选择。

最终的生成结果如图2所示，分别是面向游泳运动、骑车销售、奥运获奖情况等不同主题的生成结果。从生成结果上来看，DataShot可以有效降低数据探索与制作信息简报的难度，并且通过具有表现力的视觉设计来提升数据的可读性。

[1] Wang, Yun, Zhida Sun, Haidong Zhang, Weiwei Cui, Ke Xu, Xiaojuan Ma, and Dongmei Zhang. “DataShot: Automatic Generation of Fact Sheets from Tabular Data.” IEEE transactions on visualization and computer graphics (2019).

DataShot: 可视化简报自动生成方法

Written by sdq