关于数据竞赛的一点思考

作者:陈晓理 数据应用学院


很多数据竞赛,组织方已经把苹果从树上摘下来,洗干净,然后去皮,切好,送到你嘴边,你只管咬就行了。在真实商业环境的原始丛林中,你要想咬一口苹果,却不是这么简单。


Kaggle竞赛我们组织参加了很多次,这次又跟企业合办数据竞赛(“麦麦提风控竞赛”)。从这些竞赛的导向来看,很多竞赛太偏重最后machine learning的环节。然后实际上,这与企业的真实需求是有很大偏差的。我在内部交流邮件中,已经跟所有参赛选手都讨论过这个问题。这次再专门写一篇文章,跟更多数据科学爱好者和求职者交流一下。

本次竞赛与Kaggle竞赛的最大区别,在于关注的重点不一样,一个更关注对机器学习工具的掌握,另一个关注的,更偏重对整个商业模型和数据产品开发流程的理解。大部分数据科学求职者对前者绝对是非常重视,这没有一点问题。然而,绝对不能忽视后者,那样将对数据科学家职业发展产生相当不利的影响。

Kaggle竞赛的关注重点,是对机器学习工具的掌握。

数据应用学院辅导过很多学员参加Kaggle竞赛,排名可以达到全球前3%,我觉得我们的理解不会有太大的偏差。Kaggle竞赛关注的,是商业模型或者说数据产品研发后期的数据建模。重点是在已搜集整理好的数据上,如何利用已有的机器学习工具和模型,更快,更准确地完成预测或者分类。

不管是Airbnb,SF Crime Prediction,还是最近的Homedepot, Expedia的题目,都是在主办方将数据与资料整理齐全后,再让参赛者施展建模能力。这相当于组织方已经把苹果从树上摘下来,洗干净,然后去皮,切好,送到你嘴边,你只管咬就行了。你能不能咬下去,只跟你的牙齿有关系。

很多企业其实更重视的,是在开放命题条件下,对整个商业模型和数据产品研发流程的理解

真正在商业环境的原始丛林中,你要想咬一口苹果,却不是这么简单。

你需要先观察,定位,看看苹果树在哪里,上面有没有苹果,还要评估一下上面的苹果熟了没有。熟了的话,那就要考虑,怎么去摘这个苹果?是助跑跳,还是用梯子,还是用杆子去打?摘到了,再说如何去洗,如何去切,最后才说吃相。

本次竞赛需要参赛选手考虑的,不光光是最后一步的建模分析(吃得香不香),而需要参赛选手分析这之前的所有步骤,包括:产品的目的是什么(定位苹果树)?哪些数据有可能帮助实现这样的目的(评估苹果熟没有)?如何搜集这样的数据(摘苹果)?如何清理数据(洗苹果,切苹果)?如何建模分析数据(吃苹果)?

我们认为,这样的逻辑会更自然一些,更符合商业环境的要求。

我并不是贬低Kaggle数据建模竞赛,完全没有那个意思,以后报道要除了偏差,你们要负责任。我是比较这两种思路对参赛者的影响,强调两种能力都缺一不可。

毫无疑问,Kaggle建模竞赛提供了脱颖而出的大量机会,我们很多学员在Kaggle上获得优异成绩,找到了非常好的工作。

同时,我们也要指出,数据应用这一个领域,发展得非常快,光会Machine Learning,是绝对不够的。我们在跟很多企业交流的时候,包括跟麦麦提金融,跟Zest Finance,还有环境大数据企业佳格数据CTO张弓讨论的时候,明显感觉到,企业都越来越强调对数据产品的整体把握,对行业领域知识和对business sense的要求也越来越高,如何设计business model,以怎样的商业逻辑将潜在的数据价值挖掘出来,这方面的要求越来越高。

数据科学需要注意技术能力与商务视野的平衡

我们认为,数据科学求职者需要“在技术能力的深度与商务视野的广度之间做好平衡”(引自Chris老师原话)。以下有两点体会:

1. 对于初学者,基础一定要扎实

具体什么叫扎实,最基本的是python machine learning的操作要熟练,理论上要理解。然后是数据清理环节,对Python, SQL上的数据操作也必须熟练,毕竟这个是在工作中耗时最多的。再然后是对分布式系统下的数据操作和数据Pipeline也要动手操作。光听过一些课程,没动过手,那跟听郭德纲相声没区别。这些都动手做好了,才叫基本功扎实。

如果基础都不扎实,就开始挤入各种展会,跟各位数据公司CEO高谈阔论企业发展,发表business的高见,这是不行的。企业的大佬可以不计较技术细节,因为别人是老大,考虑问题的层面不一样。但对于初学者,或者数据科学的求职者,这样的形象就是夸夸其谈的骗子,应聘数据科学就是找死。初学者基础一定要扎实。

2. 具体领域商业价值分析能力

这方面是“老中技工”特别欠缺的。这方面的能力决定了以后职业发展的天花板有多高。就算你爬到最高了,如果缺乏这样的能力,危害的将是整个公司(那谁从市值超1000亿美元跌到现在以40多亿美元卖给了verizon)。中国学生,尤其是中国工科生,特别容易进入“只管学工具,不管整体的商业逻辑”的陷阱。

这种思维,是机械的工具论,将自己钉死在了“技工”这条路上,把自己当成高效的“螺丝钉”。这样的后果有两个:

A.被机器替代。随着技术的进步,很多“技工”的岗位会迅速被机器或者AI替代,除非你是极为顶尖的技工,要不然下场都是败给机器,被扫地出门。

B.被其他更有business sense的人替代。烙印能够通过极为出色的交流能力,迅速理解企业的business model,并与各管理部门保持良好的沟通,准确把握企业发展的方向,然后就被领导提携重用(劈柴就这样被带到了Google CEO)。剩下的老中“技工”,一遇到经济周期波动,就会被成片的裁掉(paypal),就算你想为美国健康工作50年别人也不让。

我在跟老师交流过程中,老师若干次提到:对老中工程师,虽然目前技术还是立身之本,但眼光一定要开阔。这些都是金玉良言,大家一定要听。

综上所述,我们设计了本项竞赛,希望参赛者能从全局角度,更多地考虑产品的目标,数据的来源,采集数据的方法,以及处理数据的方法。对于数据科学的求职者,也可以参考一下我们的分析。

注:此文为数据应用学院与麦麦提金融合办的“麦麦提风控大赛”写的竞赛解释说明文,原为内部邮件,修改后首发微信平台 大数据应用。