取得訓練資料 — — 打造模型的第一步

資料標注的重要性

Published in

AI 講講話

Jun 1, 2021

看完上一篇文章，你已經等不及要開始訓練一個AI了嗎？

本篇將以文本分類為例，介紹該如何得到一組訓練資料集。

文本分類是一種人工智慧的應用，目的是「將一篇文章，依據其內容自動歸類到某個類別底下」。

像是圖書館員將書籍分類為散文、新詩、本土作家、西洋文學；記者將新聞分類為社會、政治、娛樂、國際新聞；部落客將文章分類為心情、食記⋯⋯
如果我們可以根據文章內容，自動進行分類，就可以省去許多閱讀內文並分類的時間！

今天我們以書籍分類為例：假設你是一個線上書城管理員，每天有上百本書籍需要上架，而你必須將這些書籍放到對應的類別中。
但你過去並沒有讀過這幾百本新書，如果要將每本書都翻閱，再判斷每本書的類別，勢必會耗費你許多時間與心力。

如果我們能訓練一個書籍分類AI，就可以省去你翻閱每本書並歸類的麻煩了！

回想上篇「淺談人工智慧」中的訓練流程圖：我們必須提供大量的題目與正確答案給電腦，才能讓電腦「學會」回答這些題目。
以比喻來說，老師必須「出題」給學生練習。老師必須準備題目與正確答案。

在書籍分類AI中，題目即是大量未經分類的書籍（未上架的新書）。
有很多種方法可以取得大量未經分類的書籍。你可以到博客來的網頁取得許多書名和內容簡介；或是去實體書局抄寫書籍的相關資訊。
更好的方法是，使用部分在你的線上書城的書籍作為題目。

我們將這些書籍貼上類別標籤，這個過程稱為「標注」。貼上的類別標籤即是正確答案。

簡而言之，標注可以視為一個準備正確答案的過程。

經過標注的圖書是一筆題目與正確答案的組合，即為一筆訓練資料。
大量的已標注書籍稱為一組訓練資料集。

幾筆訓練資料才能訓練出一個好AI呢？越困難的問題需要越多的訓練資料。
如果是貓和狗的圖像分類器，或許一百筆訓練資料就能訓練出一個不錯的AI。
但如果是吉娃娃和馬芬蛋糕的圖像分類器，就會需要更多的訓練資料（笑）。