【 NCCU DA 3.0 社課九｜機器學習入門】

Published in

NCCU Data Analytics | 政大數據分析社

May 13, 2024

機器學習是數據分析的進階應用，他能夠幫助我們從現有數據中預測未來。應用的範圍也相當廣泛，舉凡產品需求預測、消費行為預測、顧客分級等等，都可以利用機器學習方法做準確的分析。

此次社課榮幸邀請到了<容噗玩Data>的張容溥老師為我們講解機器學習的種類、預測方法及原理，並使用信用卡違約資料做實際的案例操作。以下將逐一介紹機器學習的基本理論與演算法。

Part 1 | 機器學習理論

資料種類：資料主要可以分為兩種形式，分別是結構化資料和非結構化資料，兩者的最大的差別在於是否為有規定的資料格式以及是否為關聯式資料庫。

結構化資料：資料型態會是有規定的，關聯式資料庫(MySQL)便是其中一種。其特點為欄位定義明確、資歷格式固定、語法重複使用率高。大部分使用的數據都屬於結構化資料。
非結構化資料：沒有規定的資料型態，本身屬於非關聯式資料庫(No SQL)，舉凡文字、圖片等資料型態皆為非結構化資料。

那我們可以利用結構化資料做什麼樣的分析呢？

結構化資料分析方法：結構化資料主要可以進行描述性分析、預測分析以及因果分析

1.描述性分析

2.預測分析

3.因果分析

對於資料與分析種類有了初步認識後，下一步就是要按照資料的型態與選擇的分析種類去挑選合適的演算法。

常見演算法種類：常見演算法主要可以分為兩大類，分別是：

1.非監督式學習

2.監督式學習

那麼拿到一筆資料及決定好分析方法後，又該如何操作預測出我們想要的結果呢？

預測：主要可以分為

1.數值預測，例如：預計送達時間

2.分類預測，例如：是否下雨

3.機率預測，例如：降雨機率

預測基礎流程

數值型資料：MAE、MSE、RMSE、MPE(減少單位差異，20~40%算好）
類別型資料：準確率（Accuracy）、精確率（Precision）、招回率（Recall）、精確率與招回率的調和平均數（F1 score＝2*(Precision * Recall)/(Precision + Recall)）

7. 適配（擬合）：模型建立好後可依據bias和variance檢視是否有overfitting或underfitting的情況。

接下來的第二和第三部分，我們將對非監督式和監督式演算法進行詳細介紹。

K-means分群：此演算法的目的主要是利用距離來定義相似度（距離越近越相似）讓相似資料都各自分成一堆（組內差（SSE)小），組間距離拉大（組間差(SSR)大）把樣本分成 K 群。

主要可以應用於輪廓的探勘或是將資料貼標。然而要注意的是，此種演算法只能運用於數值，例如：性別便無法使用K-means分群，因此要特別注意欄位的特性。

決定分群數：可以由人為決定或AI決定。以AI決定的常見用法為Elbow Method，也就是Python中的函數 — KneeLocator，以此得知最好的Ｋ值。同時也可以生成k值與SSE圖來找到轉折點。
隨機生成中心點
計算樣本到中心的距離，最常使用的距離公式是歐氏距離
分配樣本到最近子群