VizNet: 一个大规模的可视化训练数据集
Published in
3 min readJun 6, 2019
欢迎关注我的人机交互与可视化设计专栏
论文发表于CHI2019,原文链接: https://viznet.media.mit.edu/
在文本领域和图像领域目前已经有非常标准的大型数据集WordNet和ImageNet了,随着智能可视化领域的不断发展,构建一个可视化领域的大型标准数据集变成了一件非常重要的事情。
VizNet是一个大型语料库,是一个百万级的可视化数据集,分别从网络、开放式数据存储库和在线可视化平台编译而成。研究人员可以使用VizNet对现实数据进行实验,评估合成数据的生态有效性,并将设计技术与共同的基线进行比较。
数据来源
数据来源为四个:
- WebTables 2015
- Plotly公开社区:https://plot.ly/feed/
- ManyEyes: 一个IBM开发的公开数据可视化平台
- 其它公开数据集 OpenDataPortalWatch
数据集统计信息
经过统计发现真实世界中的数据集通常包含3个数据维度(columns)和17行数据(rows)。51%的数据维度是类别型数据,44%的数据维度是数量型数据,5%是时间型数据。下图为一些详细的统计值。
使用VisNet进行可视化实验
论文中给出了一种基于VizNet的工具,用来标注数据集与可视化对应的任务。
随着VizNet数据集的扩展,最终可以打造成一个由(数据集,可视化,任务)的三元数据对组成的完整标准化可视化数据集。
数据集下载
完整的数据集获取代码已经放在GitHub上了,整个数据集有超过600个Gb,确保存储空间后可以下载。
$ git clone https://github.com/mitmedialab/viznet.git
$ cd raw
$ sh ./retrieve_corpora.sh
其它数据集的使用可参考GutHub上的介绍:https://github.com/mitmedialab/viznet
总结
- VizNet提供了一个在数据可视化领域的大型标准化数据集用于模型训练和可视化研究。
- 提出了一种标注(数据集,可视化,任务)数据对的方法。
- VizNet为理解在人机交互和可视化研究中复制先前工作所面临的机遇和挑战提供了一个重要的方向。