【DataRobot 重磅介紹】ML 訓練師的新武器?Auto ML自動化機器學習平台

相信在不久的將來,在各種企業場合上,不會再有人問你家公司有沒有導入AI應用。就好像在球場上,當大家都在向前跑時,已經沒人會問你懂不懂得跑步,而是問你能跑多快。

If your competitor is rushing to build AI and you don’t, it will CRUSH you. — Elon Musk

本文重點

  1. Auto ML是什麼? 為什麼會有Auto ML的出現?
  2. DataRobot在哪些階段幫你自動化了?
  3. 為什麼 DataRobot可以做到,到底厲害在哪裡?

一、Auto ML是什麼? 為什麼會有Auto ML的出現?

AI-Driven enterprise will steal $1.2 trillion from competitors by 2020 — Forrester.
在可預見的未來,似乎更是一個贏者全拿的世界,企業所擁有的財富即將重新分配。

但,難道未來只有大者恆大、贏者全拿這條路嗎?

那些沒有資金買下一家AI start-up、沒有搶到AI人才的、現在還在培育的、或甚至不知道怎麼培育的,難道就只能註定是這場時代戰役的輸家嗎?

回歸企業內部去思考,有沒有什麼方法,是能讓既有的人才更快變成你所期待的AI人才?讓既有的數據分析師/工程師加速升級為資料科學家、或是怎麼讓既有的資料科學家提高生產力

我們相信這就是Auto ML (Automated Machine Learning) 的存在價值。
給那些 80%正努力嘗試進入AI領域但力有未的企業,一個加速的機會。

什麼是 Auto ML (Automated Machine Learning)?

簡單來說,就是幫助開發團隊&懂資料意涵的人不需要高度的程式技術就能完成特定的AI應用目標,讓這些人可以更專注在:

  1. 判斷要讓機器去學習「什麼問題」
  2. 蒐集目標問題的所有相關資料(Domain know-how 很重要)

至於「訓練」機器怎麼學習這段,就讓它自動化吧!

這是一個加速迭代的解決辦法,Auto ML 輔助這些還在研究、實驗怎麼訓練機器學習的人(簡稱 ML訓練師),能快速得到反饋,針對反饋重新蒐集數據,更快進入下一輪的訓練或最後一哩的應用。

二、ML為什麼很耗時?一張圖看 DataRobot 在機器學習的哪些階段自動化處理了?

一般來說,在確認目標問題、也蒐集好相關數據後,要開始訓練機器有自我學習能力時,會在以下四個步驟最耗時,其中Data processing 跟feature engineering是最常被低估的地方,且步驟1、2又是密切相互影響的

  1. Pre-processing 準備資料: 特徵工程、挑選重要變數、缺失值處理、檢查變數類型等
  2. Modeling 選定適當演算法來模擬資料+調整演算法參數,優化模型
  3. Model Assessment/Validation 評估模型的準確度
  4. Deployment 上線應用
Data processing and feature engineering are often overlooked, even though they are essential to building a great model and are much more complicated to master.
Model Blueprint is the core technology of DataRobot
看DataRobot CTO 3分鐘解釋什麼是Auto ML

三、好奇 DataRobot 為什麼有辦法把複雜又耗時的訓練階段變得又快又準確?

我們往往因為有限的訓練時間、有限的演算法知識與選擇,等同於自動放棄追求更合適的模型。

Q : 如果不考慮模型訓練的時間,你會選擇用3–5個演算法來模擬資料,還是用 100個演算法來模擬資料?

多數人會選擇後者,為什麼?因為他們知道「模型準確度」是訓練結果的關鍵指標、也是上線應用後衡量效益的重要因素之一。

少數人會選擇前者,為什麼? 因為他們不知道可以有100種選擇。或只偏好特定幾種演算法。

There is no one recipe that works consistently across problems, meaning that limiting yourself to one or two standard practices won’t result in the most accurate possible outcomes.

DataRobot 相當於是Kaggle-top-ranked data scientists 的智慧與經驗集成,其中的Model Blueprints是我們加速升級的學習指南

DataRobot 除了內建上百種這些全球頂尖資料科學家訓練過的模型、並自動排名模型的優劣外,更重要的是,這過程一切透明化、可被解釋的」,在追求速度的同時,也藉此有系統的學習如何更精進調教機器學習的技術。

With the help of our Kaggle-top-ranked data scientists, DataRobot built a comprehensive, best-in-class machine learning framework to help anyone develop and deploy great models regardless of data science skill level.

身為ML訓練師的我們,可以透過 DataRobot 的Model Blueprints 知道以下的事情:

  1. 數據做了哪些預處理?
  2. 做了哪些特徵工程?
  3. 總共用了哪些演算法來模擬資料?
  4. 以上3點,都提供完整的資料解釋背後的運作,包含:每個演算法預設的參數跟選項、外部原始資料連結等
An example of a model blueprint generated automatically by DataRobot for training a Regularized Logistic Regression algorithm
Companies that start preparing today will position themselves to thrive in an environment redefined by AI.

推薦閱讀

【DataRobot客戶說】不只導入軟體,同步培養公司內人才是長遠考量

【DataRobot FAQ】你也會好奇的Top 5問題答案都在這裡

【回歸基本面】人工智慧AI 和 機器學習ML 之間的關係

更多應用案例

【金融業 Top 3 Use Case】 用DataRobot 降低營運資金貸款壞帳率

【金融業應用】用DataRobot 改善 AML Program的執行效率

若您對DataRobot 也有興趣,歡迎 ☞ 點此連結留個言跟我們說,我們迫不及待想幫你加速!🚀

☞ ☞【AI科技賦能】我對DataRobot有興趣!
PGi 樺鼎 大數據分析與整合 解決方案 — Tableau、DataRobot、Olation

我們致力幫助大中華區的企業更活用數據資產,以企業「反應速度」建立新的競爭優勢。 Speed and Productivity Matter.

服務據點:台北 ▎新竹 ▎上海 ▎深圳

服務內容:Technical Support ▎ Class Training ▎Consulting Service