智能数据问答

sdq
Explore, Think, Create
8 min readJul 7, 2020

欢迎关注可视化笔记专栏

(本文阅读时间大约3分钟)

什么是数据问答?

在面向企业用户的商业分析领域,数据是支撑用户决策的重要基础。而传统分析软件往往需要用户具备较强的基础数据知识与技术能力,一些复杂的分析方法与交互方式往往把一大群数据小白拒之门外。相比于复杂的软件交互,自然语言对话是一种门槛更低、效率更高的智能交互方式。随着AI技术的不断发展,大众用户已经在一些民用领域感受到了自然语言交互的便捷,比如个人助理Siri、智能客服机器人等。用户在和机器进行自然语言沟通的过程中无需关注技术细节,只需提出自己的意图或诉求,就可以得到他们所需要的答案。

数据问答是自然语言交互技术在数据分析领域的应用。基于数据问答系统,用户可以对数据集提出各种类型的询问,系统会在自动分析后通过可视化和文字的形式给出相应的回答。在这样面向数据的自然语言交互过程中,用户可以专注于分析问题和业务逻辑,而无需关注数据处理和具体的软件操作。显然这样的智能交互方式很大程度上对数据分析入门者更加友好,同时也提高了商业分析决策的效率。

应用与研究现状

目前在一些领先的可视化软件产品中已经有对数据问答的集成。Tableau软件公司在2019年的新版本中提供了Ask Data的新功能[1],当用户将数据上传至Tableau Server后,无需任何额外的配置即可开始对数据进行提问。微软的办公软件Excel也在2019年加入了“对话”功能[2],可以自动理解用户的问题并自动对数据表格进行智能分析,最终呈现给用户相应的可视化图表。从这些前沿科技公司的行动上来看,基于自然语言交互的数据分析技术已经成为行业发展的趋势方向。

在近几年的可视化学术领域中早已经有大量关于自然语言交互的研究,值得注意的是,在2019年的可视化大会上基于自然语言交互的可视化探索系统FlowSense[3]获得了最佳论文奖,这也证明了学术界对于这一方向的关注。对于数据问答的研究,大部分的研究方法集中在从自然语言中提取用户意图然后转化为类似SQL的数据查询语句,并通过数据可视化的方式作为查询结果的展示[4,5,6,7]。例如,用户询问“价格最低的SUV车型是哪款?”,应该可以被转换为SQL语句:SELECT MIN(PRICE) FROM CARS WHERE CATEGORY = ‘SUV’。还有一些研究专注在语用学(Pragmatics)上,通过研究用户分析过程中的语言行为,从而提出可视化分析的语言规则用于数据问答系统的优化[8,9,10]。

机会与挑战

虽然业界和学术界已经对数据问答有大量的实践和前沿研究,但目前依然面临诸多挑战。首先,如何更好的处理用户多样化的查询?当用户面对自然语言交互系统的时候,他们会默认系统是非常智能的,相对于传统软件标准化的数据格式,他们会用更偏向于用口语化的方式或者使用一些行业中的专业术语去阐述他们的需求,此外他们的对话中也会包含一些数据以外的常识性概念和知识,这也会导致目前的数据问答系统失效;其次,如何在上下文中优化数据问答?用户在使用问答系统的过程通常是持续多次地去寻找答案,系统需要在多轮对话中能够分析出用户意图,结合之前的查询结果给出当前的最优结果;最后,除了多轮对话,一些用户在系统中的交互操作和公开的个人信息(地理位置等)也可以成为进一步优化要考虑的因素,因此如何更好地将这些额外的上下文信息和数据问答进行结合也是未来的研究挑战。

商业应用设想

这里设想一个企业应用场景,比如智能数据大屏应用,可以通过自然语言的方式完成对数据大屏的快速搭建。用户无需具备非常强的数据分析知识,他们只需向大屏应用提出业务需求,比如:关注的KPI,行业趋势,等等。在通过语义理解模块提取用户提出需求的信息后,可以快速为用户自动搭建行业相关的数据大屏,并根据用户的关注点进行智能布局。对于数据大屏的最终读者来说,他们也可以直接与大屏进行“对话”,数据大屏会根据用户的问题自动高亮出用户感兴趣的内容或对视图作出对应的变换。

参考文献

[1] Tableau Ask Data Ask Data

[2] Microsoft Excel 智能数据分析技术,解锁Excel“对话”新功能

[3] Yu, Bowen, and Cláudio T. Silva. “FlowSense: A natural language interface for visual data exploration within a dataflow system.” IEEE transactions on visualization and computer graphics 26.1 (2019): 1–11.

[4] Dhamdhere, K., McCurley, K.S., Nahmias, R., Sundararajan, M. and Yan, Q., 2017, March. Analyza: Exploring data with conversation. In Proceedings of the 22nd International Conference on Intelligent User Interfaces (pp. 493–504).

[5] Setlur, V., Battersby, S.E., Tory, M., Gossweiler, R. and Chang, A.X., 2016, October. Eviza: A natural language interface for visual analysis. In Proceedings of the 29th Annual Symposium on User Interface Software and Technology (pp. 365–377).

[6] Fast, E., Chen, B., Mendelsohn, J., Bassen, J. and Bernstein, M.S., 2018, April. Iris: A conversational agent for complex tasks. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems (pp. 1–12).

[7] Gao, T., Dontcheva, M., Adar, E., Liu, Z. and Karahalios, K.G., 2015, November. Datatone: Managing ambiguity in natural language interfaces for data visualization. In Proceedings of the 28th Annual ACM Symposium on User Interface Software & Technology (pp. 489–500).

[8] Hoque, E., Setlur, V., Tory, M. and Dykeman, I., 2017. Applying pragmatics principles for interaction with visual analytics. IEEE transactions on visualization and computer graphics, 24(1), pp.309–318.

[9] Srinivasan, A. and Stasko, J., 2017. Orko: Facilitating multimodal interaction for visual exploration and analysis of networks. IEEE transactions on visualization and computer graphics, 24(1), pp.511–521.

[10] Setlur, V., Tory, M. and Djalali, A., 2019, March. Inferencing underspecified natural language utterances in visual analysis. In Proceedings of the 24th International Conference on Intelligent User Interfaces (pp. 40–51).

--

--