【DataRobot 活動回顧】07/25 金融場&07/26 製造業場次,Top 5 常見問題總整理!

舉辦了兩場活動才發現,台灣已經有很多公司正走在AI應用的路上,DataRobot的出現像是火種遇上大量氧氣一般,與會者的好奇心跟行動力都意外的火力十足啊!(內附當天分享簡報 )

PGi 樺鼎商業資訊
PGi 樺鼎商業資訊
8 min readAug 8, 2018

--

上期推薦閱讀

【DataRobot初登場】ML訓練師的秘密武器!AutoML到底是什麼?

【回歸基本面】人工智慧AI 和 機器學習ML 之間的關係

以下整理兩場活動下來,大家最常問的 Top 5 好奇題!

Question (1) 在整個 Machine Learning Workflow中,哪些「是」DataRobot可以自動化的?,哪些「不是」DataRobot可以做到的事?

以下圖片中的「紅色勾勾」表示 DataRobot 在4個主要階段可以自動執行機器學習的重複步驟,加速找出最適模型的過程。

這邊特別要提的是,DataRobot 「不能」自動幫你做的是Data Preparation 這段,所以整理來自不同資料源的數據、變乾淨一點、有品質一點,還是需要由User自己來下功夫,而Data Preparation 這段可依照需要清理的程度選擇 Alteryx or Tableau Prep 來處理。

DataRobot 可以吃的資料格式包含常見的 SQL databases、 csv file 或直接從Hadoop匯入。另外,還可直接透過DataRobot的 language-specific APIs 上傳 像是Pandas (Python) or R Data Frames 格式

參考DataRobot Product Sheet

Model Blueprint is the core technology of DataRobot
DataRobot 可以吃的資料格式包含常見的 SQL databases、 .csv 或直接從Hadoop匯入。另外,還可直接透過DataRobot’s language-specific APIs 上傳 像是Pandas (Python) or R Data Frames 格式

Question (2) DataRobot 可以在雲端和本地運算嗎?

可以的, on-premise 或 in the cloud 都可。

在 On-premise部分,可以部署在一個獨立的Server、既有的Hadoop架構、甚至一個虛擬的私有雲 Virtual Private Cloud (VPC)上。

在Cloud部分,可以依據需求部署在DataRobot Cloud(on AWS) 或公司偏好的雲端供應商。

Question (3) 如果自己已經有用 Python正在訓練Model了 ,該怎麼跟DataRobot結合?

DataRobot 的初衷就是要幫助開發團隊&懂資料意涵但沒有高度程式技術的人,加速訓練出模型,讓這些人可以更專注在:判斷要讓機器去學習「什麼問題」、蒐集目標問題的所有相關資料。

所以,DataRobot 提供Python 跟 R 的APIs,讓建模跟上線可以更快速

☞ 參考DataRobot Python Package

Question (4) DataRobot 一次會跑多少個 Models ?

DataRobot 內建上百種由Kaggle-top-ranked data scientists 訓練過的模型,但並不是每次都會把一百多種models跑過一次,而是取決於上傳的數據集特性、Target Variable而有所變化。

Question (5) 當 DataRobot 根據一個歷史數據集,跑完所有可能的 Model後,依照所選擇的 Model Metric 將所有跑過的 Model做排序(Score Models),可以馬上知道哪一個是最佳的模型,而 Data Engineer/Data Scientist 如何理解排名第一的 Model 就是最適合的?如何跟其他人解釋為什麼這個模型最適合用來做預測?

為什麼能解釋某個訓練好的 Model 是最適合用來做預測是如此的重要?因為它將影響未來的決策,到 Deploy 階段時,決策者將依照這個 model 來支持他的決策,決策者會想知道他的判斷依據(Features)有哪些。

特別像是Banking、 Insurance、Healthcare 這種法規嚴謹、影響個人生命與財產的產業別,每一個決定所連帶的影響範圍都很大。

因此,訓練Model是一件事,能夠理解並解釋 訓練好的 Model又是另一回事。

而到目前為止,大多數人對演算法最頭痛地方就是「Black Box」的特性,很難直觀的解釋為什麼是這樣那樣的結果,特別是深度學習的學習模型。

DataRobot Platform 有幾個地方能幫助你理解並向他人解釋

  1. Model Blueprint 是DataRobot 的精華所在,因為每個blueprint都是DataRobot內全球頂尖的資料科學家調教過的,透過 Model Blueprints 可以一目瞭然的知道 你的數據做了哪些預處理?做了哪些特徵工程?總共用了哪些演算法來模擬資料?
An example of a model blueprint generated automatically by DataRobot for training a Regularized Logistic Regression algorithm

2. 在每一個跑過的Model 底下,可展開細節,例如 Feature Fit chart 可以幫助你衡量每個欄位特徵的重要性,以及每個欄位特徵在某個Model下的合適度是如何的。

DataRobot Feature Fit

3. 乘上,The Feature Effects chart 不僅解釋哪一個欄位特徵是重要的,更解釋當某個欄位的數值改變時,會如何影響這個Model的結果。

DataRobot Feature Effects

以上 5題FAQ還不夠!

還有一堆問題想問嗎? 也想下載當天活動簡報嗎?

歡迎留個言跟我們說,我們迫不及待想幫你加速!🚀

☞ ☞【AI科技賦能】我對DataRobot有興趣!

With the help of our Kaggle-top-ranked data scientists, DataRobot built a comprehensive, best-in-class machine learning framework to help anyone develop and deploy great models regardless of data science skill level.

DataRobot 來歷&現況小檔案

Companies that start preparing today will position themselves to thrive in an environment redefined by AI.

☞ ☞其他更多DataRobot 學習資源

PGi 樺鼎 大數據分析與整合 解決方案 — Tableau、DataRobot、Olation

About Us:PGi 樺鼎商業資訊 (Perform Global Inc.),在台成立於2011年,我們專注於引入全球500大企業也信賴的大數據處理軟體解決方案。

特別是具有簡單易學、與既有架構整合度高、導入敏捷性強的新世代軟體應用平台,並重視 Business Users 和 IT 間的協同合作。

致力幫助大中華區的企業更活用數據資產,以企業「反應速度」建立新的競爭優勢。 Speed and Productivity Matter.

服務據點:台北 ▎新竹 ▎上海 ▎深圳

服務內容:Technical Support ▎ Class Training ▎Consulting Service

--

--

PGi 樺鼎商業資訊
PGi 樺鼎商業資訊

從RPA、BI 到 AI 平台,我們專注協助企業用最省力的方式,加速數據變現。From Data to Insight. Easier & Faster!歡迎造訪PGi 官網 https://www.perform-global.com