取得訓練資料 — — 打造模型的第一步
看完上一篇文章,你已經等不及要開始訓練一個AI了嗎?
本篇將以文本分類為例,介紹該如何得到一組訓練資料集。
文本分類是一種人工智慧的應用,目的是「將一篇文章,依據其內容自動歸類到某個類別底下」。
像是圖書館員將書籍分類為散文、新詩、本土作家、西洋文學;記者將新聞分類為社會、政治、娛樂、國際新聞;部落客將文章分類為心情、食記⋯⋯
如果我們可以根據文章內容,自動進行分類,就可以省去許多閱讀內文並分類的時間!
今天我們以書籍分類為例:假設你是一個線上書城管理員,每天有上百本書籍需要上架,而你必須將這些書籍放到對應的類別中。
但你過去並沒有讀過這幾百本新書,如果要將每本書都翻閱,再判斷每本書的類別,勢必會耗費你許多時間與心力。
如果我們能訓練一個書籍分類AI,就可以省去你翻閱每本書並歸類的麻煩了!
取得訓練資料
回想上篇「淺談人工智慧」中的訓練流程圖:我們必須提供大量的題目與正確答案給電腦,才能讓電腦「學會」回答這些題目。
以比喻來說,老師必須「出題」給學生練習。老師必須準備題目與正確答案。
在書籍分類AI中,題目即是大量未經分類的書籍(未上架的新書)。
有很多種方法可以取得大量未經分類的書籍。你可以到博客來的網頁取得許多書名和內容簡介;或是去實體書局抄寫書籍的相關資訊。
更好的方法是,使用部分在你的線上書城的書籍作為題目。
我們將這些書籍貼上類別標籤,這個過程稱為「標注」。貼上的類別標籤即是正確答案。
簡而言之,標注可以視為一個準備正確答案的過程。
經過標注的圖書是一筆題目與正確答案的組合,即為一筆訓練資料。
大量的已標注書籍稱為一組訓練資料集。
訓練資料集的大小
幾筆訓練資料才能訓練出一個好AI呢?越困難的問題需要越多的訓練資料。
如果是貓和狗的圖像分類器,或許一百筆訓練資料就能訓練出一個不錯的AI。
但如果是吉娃娃和馬芬蛋糕的圖像分類器,就會需要更多的訓練資料(笑)。
AI 講講話|人工智慧 AI 系列文目錄
- 淺談 人工智慧(AI, Artificial Intelligence)
- AI 的歷史演進
- 取得訓練資料 — — 打造模型的第一步← 目前位置
- 特徵抽取 — — 你是哪裡人?
- AI 技術在企業上的數位轉型
- AI 的應用:機器翻譯
- AI 是如何變聰明的? — — 「機器學習」與「深度學習」
- AI 如何變聰明?(二) — — 什麼是「機器學習」
- AI 如何變聰明?(三) — — 模擬人類大腦的「類神經網路」
- AI 如何變聰明?(四) — — 什麼是「深度學習」
- 開啟 AI 2.0 新時代
- 大型語言模型(LLM)的發展
- 大型語言模型(LLM)對自然語言處理(NLP)的影響
- ChatGPT 為什麼那麼紅?一次了解歷代 GPT 模型