让数据科学家失业?最火热的自动化数据挖掘工具了解下
作为每天都在用数据服务公司内外客户的我们,在各个场合经常会被问到这些问题:
数据模型的建立为什么要耗费这么长的时间?既然都是依靠机器学习和AI,我们还需要维持庞大的数据分析团队吗?数据分析团队对业务的价值体现在何处?
要回答这些问题,我们假设自己是一个新兴公司的数据团队,内部有着自己的业务,数据和技术三个部分,来考察市场领先的自动化机器学习工具。近日,著名咨询公司Gartner Group发布了2018年数据科学与机器学习平台类企业魔力象限(Magic Quadrant)报告。魔力象限是该公司监测和评估专业科技市场中公司的发展及定位的一种研究方法论和形象化工具,会将所有参评企业定位在四个不同的区域:行业领袖(leader)、挑战者(Challengers),细分市场者(Niche Players),远见者(Visionaries)
我们把研究重点放在H2O.ai、RapidMiner、Alteryx、Knime这四家处于行业领袖的公司, 基于业务分析,数据挖掘,大数据架构三个领域的专家分析,我们认为:数据挖掘的自动化与依靠AI的机器学习是大势所趋,开源技术和商业产品的多样性使得搭建数据分析平台不再只有一个方案。而企业数据分析团队的价值,是将对自身业务的深刻理解洞见融入模型,使数据产生最大的价值。
横轴前瞻性(Completenessof Vision)包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等
纵轴执行能力(Abilityto Execute)包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验和能力等。
业务场景适用性评估:
H2O作为科技的领导者,在很多方面都比较领先,例如深度学习能力、自动化能力、混合云支持、以及开源集成等方面;使用范围广,为很多数据科学家、合作伙伴所用;但其工具主要是以代码为中心,会增加灵活性和可伸缩性,但会阻碍易用性和重用性。相对应的Alteryx平台易于学习和使用,并使拥有正确的领域经验和商业头脑的人能够建立和运行模型;包含更多的自动化和基于规则的建议,使模型的操作变得更加容易。这两家可以说个性鲜明,前者比较适应于有很强编程能力的团队,而后者则适应于业务初期汇总和清理数据。
RapidMiner包含一个可视化工作流设计器和指导分析,流程执行框架为运行和监视大量模型流程提供了灵活、可扩展和可扩展的功能;易用性强,界面直观,能轻松访问数据源,提供开发模型的简单编程和易于理解的结果。而Knime 则有丰演的开源的数据集成、数据处理、数据分析和数据勘探平台。使用、维护成本低,使许多非营利组织也能够从事数据科学;提供模型创建和部署的自动化,以及建模过程的自动化。这两个公司都是比较全面型的产品,适合在业务初期就对系统有全盘考虑的部署。
商业模式与成本评估:
从各家公司提供的案例来看,采用建模工具的分布于金融,IT,医疗,互联网等企业。这些企业也同样是最早接入数据库营销相关应用的行业,有关的应用场景也并非是前所未闻。这充分说明了创新工具的落地仍然依赖于有着充足数据资源的业务场景。
从搜索引擎爬取的数据分析来看,Alteryx更具有国际影响力,Rapidminer则在中国市场有很强的品牌知名度,Knime公司则服务于几个欧洲国家市场。
各家公司都采用了较为灵活的收费方式,并多提供免费单机和网络版试用,以扩展自身的品牌影响力。
易用性与建模效果评估:
为了测试各家公司的易用性以及建模效果,我们安装了他们所提供的产品试用版(其中Alteryx我们始终无法激活产品,所以最终只比较了另外三家),并且采用天池大数据竞赛中用户复购的数据集,进行了横向对比。
Knime
易用性:4星
安装简单,图形界面清晰,,各布局也较为合理。对于每个小图标的作用也有相应的解释,有助于快速上手,不需要充分了解内在结构。但是缺点也很明显,要想正确使用这些小图标完成一个完整的机器学习流程,还是需要有完整的机器学习体系知识,否则光是寻找这些分类中的结点就要花费一定的时间。难以进行一些扩展,没办法和现有的一些已经开始进行用代码进行分析的项目快速融合。有些模型需要进行一系列复杂指定,使用起来不够便捷.
建模效果:3星
Knime, 读入数据过程中比较卡顿,只选择了小流量测试数据集,选用了决策树进行模型预测,预测准确率在60%左右。
RapidMiner:
易用性:4星
从软件的安装到密钥许可,该软件都比较顺利。一键安装,初始下载有14天的试用,以学生身份或者学习的目的注册还可以获得1年的试用许可,也许这点来说也是在中国试用比较普遍的原因之一。
打开软件使用时,界面也比较人性化,四周分别是导入数据,模块选择,模块参数设置和帮助;上面是运行按钮,清晰的分开了design和results的两个界面;中间是模块放置界面;底边还有一块人性化的推荐模块,可以快速的帮助我们建立模型。在导入数据时,可以快速对数据可视化,过滤出需要的数据;在建立模型,测试模型阶段还比较顺畅,也能清晰的显示模型效果。同时,中国的许多网站也可以找到许多学习教程,和做过的一些实际案例,学习起来比较有帮助。
建模效果:3星
不过,在真正导入数据进行建模时,需要了解不同模型特性的储备知识,不然在不对数据的结构进行转换,连接模型时会频频报错;其次,每个模块的内部参数也有些复杂,需要较长时间的学习研究,才能得到比较准确适用的模型。
因为没有对模型进行比较好的特征工程,所以最后获得的模型,测试准确度并不是很理想,在65%左右。
H2O
易用性:1星
含有基于Python,R以及其他语言的API, 而且可以通过WebUI进行可视化,可以很方便的在项目中使用。以Python举例,安装时使用pip install + whl文件,安装普通Python扩展库一样。不足之处很明显,需要使用者具备相当水平的编程能力和机器学习方面的知识储备,普通人上手非常困难。参考文档主要指由官网上的document,网上暂时没有系统准确的教程,需要自己摸索。
建模效果:5星
h2o虽然在数据预处理上需要认为进行一些变换,但是在模型测试上十分便捷,一行代码,可以直接进行多个模型的同步训练,十分方便。预测准确率在70%左右,并且有较大的提升空间。
大数据平台评估:
在数据架构方面,KNIME, Rapidminer和H2O都通过相应的扩展产品与已有的Hadoop平台和Spark平台结合,用hive、impala、MR对HDFS上的数据做预处理,之后调用Spark接口做模型训练。三家公司也都各自开发了自己的大数据专用扩展,不过在交互方式上,H2O依然期望用户能编写Scala或者python代码,而Knime和Rapidminer则都提供了用户图形界面。但值得一提的是,H2O在专业用户中有很强的粉丝群体,所举办的线下活动也经常参与者众多。最后从架构部署方面综合考虑,KNIME和Rapidminer 都较为容易上手。KNIME通过nodes的组合就能够完成建模流程的设计,适合无编程基础的数据分析师,而Rapidminer同时还支持SparkR和PySpark脚本,令开发更灵活。
首发:映数咨询
