Extensible Timeline: 时间线信息图的自动化模板提取

sdq
Explore, Think, Create
6 min readDec 28, 2019

制作时间线信息图(以下简称Timeline)对于新手来说是一件非常耗时的工作,通常一些常用的设计或者商业工具(比如AI和PPT)都会提供一些可用的模板来辅助制作Timeline,尽管非常简单易用,但是定制性非常差。用户更多的需求是当他们在网上看到别人设计好的Timeline,希望能够直接拿来用到自己数据上。为了满足这部分用户,研究者希望能够从用户提供的Timeline图片中直接提取可以编辑的模板用于新数据的创作[1]。

这项研究主要有两个挑战:第一,如何能狗让计算机理解Timeline中的信息;第二,如何基于理解的信息将图片转化为可编辑模板。

为了解决上述挑战,论文提出方法包含了解构和重构两个部分。其中解构部分解决了上述的第一个挑战,利用了一个多任务的深度神经网络来理解Timeline的全局信息和局部信息,全局信息包括Timeline的类型、布局、方向等,而局部信息则包含的是元素位置、元素种类等;重构部分解决了第二个挑战,在重构部分使用了一个由三项技术组合的Pipeline(后文会加以介绍),从Timeline的图中抽取可编辑模板。整体的流程如下图所示。

训练数据集构建

首先是训练数据集建立的部分,文章构建了两个数据集D1和D2。D1是通过一个TimelineStoryteller[2]的工具生成的,大约数量在9000个(下图左图);D2是作者Pinterest等网站上爬取的,大约有1000个(下图右图)。

可以将Timeline的元素分为六类,分别为主体(Main Body)、事件标记(Event Mark)、事件文字(Event Text)、注释标记(Annotation Mark)、注释符号(Annotation Icon)、注释文本(Annotation Text)。对D1数据集可以进行自动标注,对D2数据集作者做了手工的标注。

解构部分

在结构部分需要分别提取Timeline中的全局信息和局部信息。对于全局信息,需要能够识别Timeline的类型和方向,这里分为两步,第一步使用ResNeXt[3]首先从输入的图片中提取特征信息,ResNeXt是目前CV任务中的领先技术;第二步是将输出的特征连接到两个全连接网络上用于类型的分类和方向的分类,最终输出Timeline的全局信息。

局部信息包括Timeline中每个元素的具体信息,使用了Mask R-CNN的架构去对接迁移步骤中ResNeXt的输出,架构图如下,具体的架构信息不赘述可参考原文[1]。在经过处理后,我们可以获取Timeline中每个元素的位置框以及具体的类型信息。

重构部分

重构部分也分为三个步骤:

1)使用一种NNM的技术[4]消除重复识别的位置框,和使用Timeline自身的重复性来鉴别是否有遗漏识别的元素。

2)通过GrabCut技术[5]来将识别的元素抽取出来并进行重用和更新。

3)根据具体的数据配置项来填充元素产出自动化加工的Timeline设计。

识别提取的Timeline可以写成JSON形式方便理解,如下图所示。

下图为最终提取的模板效果,可以看到在作者提供的一些Timeline的提取效果上还是非常不错的。

总结

这篇文章属于一篇工程性比较强的文章,在方法上串行使用了一系列业界比较成熟的技术方案的组合来进行创新。该文的Future Work里也提到了,希望在未来能使用更一体化的方案来取代现在的这种混合式的技术方案。另外,目前的技术依然是依赖于模板式的创作,也许未来的研究方向可以往更自由的创作模式上进行改进。

参考文献

[1] Chen, Zhutian, et al. “Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline.”IEEE transactions on visualization and computer graphics26.1 (2019): 917–926.

[2] Brehmer, Matthew, et al. “Timeline Storyteller: The Design & Deployment of an Interactive Authoring Tool for Expressive Timeline Narratives.”proceedings of the the Computation+ Journalism Symposium. https://aka. ms/TSCJ19. 2019.

[3] S. Xie, R. Girshick, P. Doll´ar, Z. Tu, and K. He. Aggregated Residual Transformations for Deep Neural Networks. In Proc. CVPR, pages 5987– 5995. IEEE, 2017.

[4] R.Girshick,J.Donahue,T.Darrell,andJ.Malik. RichFeatureHierarchies forAccurateObjectDetectionandSemanticSegmentation. InProc.CVPR, pages 580–587. IEEE, 2014.

[5] C. Rother, V. Kolmogorov, and A. Blake. ”GrabCut”: Interactive Foreground Extraction Using Iterated Graph Cuts. ACM TOG, 23(3):309–314, 2004.

--

--