為什麼在AI時代下,你需要更聰明的方法協助你做Data Labeling

Jay Chen
Avalanche Computing
6 min readSep 26, 2019

在現在這個AI蓬勃發展的時代,每個人都想將AI技術結合到自身的領域,而當經過一番研究或者向外部專家諮詢以後,基本上都會得到一個結論:若要導入AI技術,首先需要準備足量、有效且具代表性的資料。

資料標注(Data Annotation),工作人員的惡夢

AI在這幾年的成功可以很大的歸功於機器學習(Machine Learning, ML)以及深度學習(Deep Learning, DL)的研究突破,而資料在這其中扮演的腳色就像是新時代的石油或者礦脈,我們利用這些新技術來對資料進行模型的訓練(Model Training),從而做出我們所期望的AI。然而,對於AI/ML的模型訓練而言,準備好大量的資料並不意味著成功,因為標籤資料(Labeled Data)才是其中最珍貴且最有價值的部份。這是由於在AI模型訓練時,總是需要大量具備產業知識(Domain knowhow)或特定於某些任務的訓練資料集以及對應的標籤才能達到最佳的表現,而在過去,這些標籤是經由手動建立的,標注的速度往往太慢且需付出昂貴的人力成本。

Photo by Pelly Benassi on Unsplash

實務面來說,在過去幾個月與數間欲邁向智慧工廠(Smart manufacturing)的合作案中,我們深深發現到,在建構智慧製造的AI專案中,最難的部分不是AI演算法,而是如何準備足夠數量的資料和對應的標籤。

傳統的資料標注,如何完成呢?

那麼大部份的狀況都是如何進行的呢?我們以監督式學習(Supervised learning)或者半監督式學習(Semi-supervised learning)為例:

首先需要輸入訓練資料集(Training dataset)和對應的標注,主要的目的便是讓AI去學習資料的模式(Pattern),讓其能對未來新輸入的資料作預測,而傳統的標注方式非常單純,通常是把未標注的資料交付給數個專家,利用他們的領域知識來辨識這些資料並做標注的紀錄,最後經過不同專家的檢驗,確定標注的正確性後,完成標注的收集。

按照以上所述的情況,要去作資料標注是十分昂貴且容易出錯的,畢竟專家的時間寶貴,標注的任務又可能會有一些模稜兩可的情況,讓每個標注者之間無法達成足夠的共識。但若在資料標注這一關沒有達到一定的品質與數量,我們就算使用各種先進的演算法來訓練AI模型,低品質的標注還是會造成 “garbage in, garbage out” 的結果。更惶論資料不平衡,訓練資料影像不清晰,輸入資料多數為雜訊的狀況。

資料標注員的痛點,我們在乎!

在這短暫而又漫長的過程中,我們獲得不少教訓,當你無法取得高品質的資料以及正確且足夠數量的標注時,AI的演算法便要花上數倍的時間來進行資料擴增、資料校正、資料清理。在整理好資料後,接下來便是大量的去試各種模型架構並且著手修改模型內部網路層的細節。這樣的人力與時間的花費,遠大於收集一個好的訓練資料集與高品質的標注資料。因此我們看到這個問題並著手構想要如何解決他。

Photo by Franck V. on Unsplash

Yann LeCun在NIPS 2016曾提到過:”If intelligence was a cake, unsupervised learning would be the cake, supervised learning would be the icing on the cake, and reinforcement learning would be the cherry on the cake. We know how to make the icing and the cherry, but we don’t know how to make the cake. We need to solve the unsupervised learning problem before we can even think of getting to true AI. And that’s just an obstacle we know about. What about all the ones we don’t know about?”

既然收集高品質標注的標注需要極高的成本,那我們自然會想問:是否有不需要標注資料的AI呢?這個問題的答案就隱藏在上面Yann LeCun的論述之中,用學術界研究題目的角度來說便是:如何由監督式學習(supervised learning) 走向非監督式學習( unsupervised learning)?

然而這是十分困難的一個研究題目,若單以非監督式學習的方法,我們根本不知道要先準備好什麼樣的模型?我們會需要許多與該任務相關的領域知識,但就算如此,非監督式學習的技術在目前產業界專案上大部分仍然無法達到令人滿意的表現。因此,為了使用目前發展較為成熟的監督式學習技術,並且降低收集高品質標注所花費的成本,我們便開始著手研究如何運用AI來協助我們做資料標注的工作。

在時間成本與可行性中,取得平衡的方案

為了解決成本與可擴展性的問題,我們可以由多個面向著手。 一些方法例如:

1. Pre-training models/transfer learning

2. Weak supervision

3. Active Learning.

4. Reinforcement Learning

上述都是現在比較當紅的一些方法,以研究而言,這些都是十分具探討價值的題目。但對於產業來說,還需要評估研發時間的長短,因為時間成本才是產業界的首要考量。

綜合了我們在學術圈的研究以及產業界的專案合作經驗,我們認為以目前的學術進展以及產業需求來說,半監督學習的方法搭配上一些折衷方案才是現行的最佳解法,於是便誕生了Smart Labeling 的概念。

先求有、再求好的 AI 資料標注解決方案

為了節省我們自己專案中的時間花費,我們提出了加速AI專案工作的工具-Smart Labeling,也就是利用 AI 來協助進行資料標注的一個解決方案。

若您有興趣可以 Follow 一個新的產品 http://labeling.avalanc.com ,我們待下文章再作更多討論,應用、理論與實務。

Photo by Alexas Fotos from Pexels

--

--

Jay Chen
Avalanche Computing

Jay Chen, who doing big data analysis and hyper-scale computing.