取得訓練資料 — — 打造模型的第一步

資料標注的重要性

AI Justka
AI 講講話
Jun 1, 2021

--

Photo by Emily from Pexels

看完上一篇文章,你已經等不及要開始訓練一個AI了嗎?

本篇將以文本分類為例,介紹該如何得到一組訓練資料集。

文本分類是一種人工智慧的應用,目的是「將一篇文章,依據其內容自動歸類到某個類別底下」。

像是圖書館員將書籍分類為散文、新詩、本土作家、西洋文學;記者將新聞分類為社會、政治、娛樂、國際新聞;部落客將文章分類為心情、食記⋯⋯
如果我們可以根據文章內容,自動進行分類,就可以省去許多閱讀內文並分類的時間!

今天我們以書籍分類為例:假設你是一個線上書城管理員,每天有上百本書籍需要上架,而你必須將這些書籍放到對應的類別中。
但你過去並沒有讀過這幾百本新書,如果要將每本書都翻閱,再判斷每本書的類別,勢必會耗費你許多時間與心力。

如果我們能訓練一個書籍分類AI,就可以省去你翻閱每本書並歸類的麻煩了!

取得訓練資料

AI 訓練流程圖

回想上篇「淺談人工智慧」中的訓練流程圖:我們必須提供大量的題目與正確答案給電腦,才能讓電腦「學會」回答這些題目。
以比喻來說,老師必須「出題」給學生練習。老師必須準備題目與正確答案。

在書籍分類AI中,題目即是大量未經分類的書籍(未上架的新書)。
有很多種方法可以取得大量未經分類的書籍。你可以到博客來的網頁取得許多書名和內容簡介;或是去實體書局抄寫書籍的相關資訊。
更好的方法是,使用部分在你的線上書城的書籍作為題目。

我們將這些書籍貼上類別標籤,這個過程稱為「標注」。貼上的類別標籤即是正確答案。

簡而言之,標注可以視為一個準備正確答案的過程。

標注示意圖

經過標注的圖書是一筆題目與正確答案的組合,即為一筆訓練資料。
大量的已標注書籍稱為一組訓練資料集。

訓練資料集的大小

幾筆訓練資料才能訓練出一個好AI呢?越困難的問題需要越多的訓練資料。
如果是貓和狗的圖像分類器,或許一百筆訓練資料就能訓練出一個不錯的AI。​​​
但如果是吉娃娃和馬芬蛋糕的圖像分類器,就會需要更多的訓練資料(笑)。

區別吉娃娃與馬芬蛋糕 — — 你做得到嗎?

--

--