混淆矩陣(confusion matrix)介紹

Published in

NLP-trend-and-review

Oct 25, 2019

在機器學習中，最常見的就是分類模型，像是垃圾郵件分類、手寫數字判定等等

此文章完整發佈在我的個人網頁，此處不會再更新

那我們要怎麼去判定一個分類模型表現的到底好不好，基本上混淆矩陣(confusion matrix)的各項指標會被拿來參考

那今天我們先來認識一下組成混淆矩陣的四個元素(TP,TN,FP,FN)吧

TP(True Positive): 正確預測成功的正樣本，例如在一個預測是不是貓的圖像分類器，成功的把一張貓的照片標示成貓，即為TP

TN(True Negative): 正確預測成功的負樣本，以上述例子，成功的把一張狗的照片標示成不是貓，即為TN

FP(False Positive): 錯誤預測成正樣本，實際上為負樣本，例如：錯誤的把一張狗的照片標示成貓

FN(False Negative): 錯誤預測成負樣本(或者說沒能預測出來的正樣本)，例如：錯誤的把一張貓的照片標示成不是貓

所以這樣看下來，很直覺的，我們會知道TP跟TN要越大越好，但總是不會有完美的系統，因此就會出現出FP及FN

有時候的情況能比較能接受FP的錯誤，例如我們要投放廣告給喜歡喝酒的人，如果不小心投放到其他客群，也並不是那麼嚴重

相反的，如果是一個門禁的臉部辨識系統，FP的錯誤就相當嚴重

在統計學上FP被還被稱為第一型錯誤(Type 1 Error)，FN被稱為第二型錯誤(Type 2 Error)

了解混淆矩陣對於我們評估許多機器學習的模型有很大的幫助，接下來我們會介紹如何例如混淆矩陣來計算Precision, Recall, Accuracy等分數

參考資料