VizNet: 一个大规模的可视化训练数据集

Published in

Explore, Think, Create

3 min readJun 6, 2019

论文发表于CHI2019，原文链接: https://viznet.media.mit.edu/

在文本领域和图像领域目前已经有非常标准的大型数据集WordNet和ImageNet了，随着智能可视化领域的不断发展，构建一个可视化领域的大型标准数据集变成了一件非常重要的事情。

VizNet是一个大型语料库，是一个百万级的可视化数据集，分别从网络、开放式数据存储库和在线可视化平台编译而成。研究人员可以使用VizNet对现实数据进行实验，评估合成数据的生态有效性，并将设计技术与共同的基线进行比较。

数据来源

数据来源为四个：

经过统计发现真实世界中的数据集通常包含3个数据维度（columns）和17行数据（rows）。51%的数据维度是类别型数据，44%的数据维度是数量型数据，5%是时间型数据。下图为一些详细的统计值。

论文中给出了一种基于VizNet的工具，用来标注数据集与可视化对应的任务。

随着VizNet数据集的扩展，最终可以打造成一个由（数据集，可视化，任务）的三元数据对组成的完整标准化可视化数据集。

完整的数据集获取代码已经放在GitHub上了，整个数据集有超过600个Gb，确保存储空间后可以下载。

$ git clone https://github.com/mitmedialab/viznet.git
$ cd raw
$ sh ./retrieve_corpora.sh

其它数据集的使用可参考GutHub上的介绍：https://github.com/mitmedialab/viznet