你以為你是亞馬遜,其實你只是魯賓遜--公司推動AI的幾個步驟

AI人工智慧、機器學習、大數據,這些關鍵字一直是近年來科技圈最火紅的詞彙。他們都屬於「資料科學」的範疇,目前在商業上主要討論的是,將各式各樣的數據餵給電腦,讓電腦藉由處理、運算,進而找出規律,再由這些規律當中自主學習,最後從這些數據中發掘出趨勢。隨著餵給電腦的數據越多,其判斷結果也會越精準,能精準發掘隱藏的商業需求或市場趨勢,或是由自動化節省大量人力。

聽起來讓人覺得熱血沸騰,迫不及待想開始了?

但是,在許多討論當中,我發現夢想與現實的鴻溝無比巨大--許多人認為大數據加上AI是萬靈丹,但其實,要先經過以下層層檢視,才知道它是不是真的能為你帶來商業價值。以下是檢驗你的公司是否準備好AI的層層破關圖。

(圖片來源:Evonne)

首先,最重要的是,要問對問題。要先知道你想要達到什麼目的,想要知道什麼,才能夠知道自己需要什麼資料,進行什麼樣的分析。

接著要問,你的數據怎麼來?你有現有可用的數據嗎?平常有蒐集數據的管道和習慣嗎?不同部門之間的數據可以相容嗎?資料的可用性以及權限足夠嗎?(即使是同一公司,各部門的數據也常常未整合,要先經過非常多的溝通,才能得到所需的資料使用權限),資料傳得出來嗎?(有些資料產生在客戶的內網裡,根本無法傳出來)沒有既有資料的話,資料要從哪裡來?從感測器?攝影機的影像資料?人工登錄?這些資料的來源穩定且足夠嗎?會有法律的問題嗎?資料的取得會有偏誤嗎?(例如攝影機的影像資料,隨著安裝位置的不同,準確度會有相當大的差別)

接著還得問,公司的基礎建設,足夠支持這些數據的持續傳輸或是儲存嗎?運算主機可以持續訪問到資料庫的資料嗎?持續傳輸與儲存的需求看似容易,但若是資料大量,或是高階析度影像資料,其實會是不容小覷的成本,若是無法穩定傳輸,則資料的偏誤則可能會加大。

終於確認可以得到資料,也有足夠的傳輸頻寬與儲存了,接下來還需要清洗資料。有時候,這些資料是很「髒」的,這是一個兩難,在一開始採用大數據時的初衷,就是要從盡量多的資料中,找出有意義的價值,所以一開始可能什麼都先抓下來再說,但其中可能有偏誤或是不夠精準的資料。若是資料有問題,則garbage in, garbage out,無法產生有價值的結論,又或是像之前幾個被玩壞的聊天機器人--微軟的Tay發表種族歧視話語,或是騰訊聊天機器人「腐敗無能的政治萬歲嗎?」的驚人之語(好啦騰訊沒有被玩壞)。

另外一種「髒」是資料用語與格式的不統一,例如同樣的一個「金額」的資料,可能在有些文件裡叫做「金額」,有些叫做「價錢」,有些用「$$」符號取代,全半形還不一樣,同樣的項目有不一樣的稱呼,都會造成分析的困難,需要進一步統一。

終於把資料蒐集好並洗乾淨了,此時才真正要開始分析資料了。此時才是討論分析方法、演算法、如何訓練電腦學習、如何從這些資料中挖掘出一些模式或趨勢的時候。

接著,當我們挖掘出這些趨勢,它只是一個「現象」,這些現象要進一步解讀,進而產生有商業價值的決策。此時,領域知識就相當重要。具有足夠的領域知識,才能知道這些現象在這個行業中代表什麼意義,也能判斷什麼樣的結果是有價值的,什麼樣的結果是有偏誤的。例如我們曾經藉由攝影機影像資料,判斷出商店的「熱區圖」--最多客人有興趣,逗留最久的地方,結果老闆一看就說,這裡是休息區,這裡是試鞋區,這裡是結帳區,當然人待在這幾個地方最久啊!一秒被打臉,這樣的結果就是沒有商業價值的。若是有領域知識,非常簡單的數據與趨勢,就能產生非常有價值的結論了,例如非常簡單的「人流計算」,計算有多少人流走進店裡,有經驗的客人就知道將人流計算跟結帳資料結合,轉換為「提袋率」,或是將進店人流與進試衣間試穿的人流比較,推估出「試穿率」,再從結帳資料推估出「試穿後購買率」,這些簡單的資料,都能產生出不簡單的結論與行動方案。

當這些趨勢真的有辦法轉換為有價值的商業策略,接下來還要能推動與執行才行,許多大公司即使知道數據分析出這樣的趨勢,討論出公司策略與走向的改變,但真正要推動變革,還是有困難的,更多的是反過來讓數據分析的結果,為現有決策背書歌功頌德,「先射箭再畫靶」,而非真正想追求改變與進步。

當你終於解完以上關卡,記得時時用新得到的數據,檢驗這個改變的策略是否成功,並持續修正。若是無法解完關卡,就想要打大魔王,結果就是--你以為你是亞馬遜,其實你是魯賓遜,在數據之海漂流,最終被困在各種技術名詞與演算法的荒島上而已。(這樣的話,「星期五」是……?)

如果您喜歡我的文章,請多按幾下「拍手」給我鼓勵,或是按”follow”讓我持續提供優質文章給您。