Facets|機器學習於訓練數據時的可視化工具

瞭解您的數據,讓更好的數據來建立更好的機器學習模型

Steven Lo
Python4U
6 min readJun 6, 2022

--

文章搬新家囉!
全新內容歡迎參考 「
Facets|機器學習於訓練數據時的可視化工具 (2023更新版)
未來最新文章也將移至
https://simplelearn.tw/
歡迎海、內外讀者持續追蹤及關注我們的文章~~

“More data beats clever algorithms, but better data beats more data.”

Peter Norvig

機器學習的力量來自於它可以從大量數據中學習模式(Patterns)的能力,如”使機器變智慧的 7 件事”當中所提,機器如果沒有數據就無法工作,因此了解您的數據對於建構強大的機器學習系統非常重要。

但數據多了以後有可能散布著奇怪的值或是貼錯標籤,這些值會影響機器學習的訓練,因此我們在提供好的數據時,應該適當的清理數據集,如果有一個好的工具,對初學者認識自己的數據,並進而學習機器學習(Machine Learning)是非常棒的。

Google 發布了一種開源可視化工具 — Facets,幫助我們可視化自己的數據,讓大家對數據更為瞭解。

Facets 包含兩個強大的可視化功能,來幫助理解和分析機器學習數據集。

  • Facets Overview:可以用來了解數據集每個特徵的形狀
  • Facets Dive:探索一組單獨的觀察結果

現在就讓我們用一些範例來做介紹。

Facets Overview

Facets Overview 提供了數據集的概述,它的可視化功能提供一個或多個數據集的高級視覺圖,會自動快速了解數據中各種特徵值的分佈及特徵形狀的感覺,總結每個特徵的統計數據,也可以立即在訓練數據集和測試數據集中進行比較。

Facets Overview 工具可以向你顯示下面內容:

  1. 數據統計 :最小值、最大值、中值、標準差
  2. 缺失值: 顯示有多少列(row)沒有數據
  3. 零值:數據為 0 的百分比
  4. 訓練數據/測試數據拆分情況:如何在數據集中拆分訓練數據測試數據之間的顯示圖

藉此也可以幫助我們發現數據集的一些問題。

讓我們來看一下UCI 人口普查收入數據集範例,它的目標是根據各種人口普查統計數據,來預測個人的年收入是否高於 5 萬美元。人口普查數據包含每個人的年齡、教育水平和職業等特徵。紅色數字表示可能的問題點,右側的直方圖可以讓您比較訓練數據(藍色)和測試數據(橙色)之間的分佈。

該工具利用紅色字突顯高百分比的零,對某些數據列提供很好的直覺查看

我們可以清楚地看到,Capital Gain 和 Capital Loss 都沒有包含太多資訊,因為它們大多數列都有 0 值(紅色字)。

我們還可以放大右邊的直方圖,觀察數據的分佈情況,它將有助於我們仔細檢查測試數據與訓練數據是否具有相似的分佈 ,因為我們不希望數據有偏差。

數據值概述

該工具可以非常簡潔清晰地顯示所有功能,讓我們輕易查看重要資訊。

數據分類概述

Facets Dive

Facets Dive 可以使你更清楚瞭解數據集,並且可以一直放大來查看單個數據。它是一個可以互動式探索多達數萬個多維度數據點的工具,可以幫助使用者在高階瀏覽及低階細節中進行無縫切換,並可深入了解數據單個特徵及觀察結果,以及根據其特徵值來控制每個數據點的位置、顏色和視覺表示以獲取更多資訊。同時利用流暢的動畫縮放和過濾相結合,可以輕鬆發現複雜數據集中的模式和異常值,讓你更瞭解你的數據。

4 個主要介面部分

Facets Dive 介面主要分成 4 個部分:

A. 中心主要區域是數據可縮放顯示的地方。

B. 上方區域可以使用各種下拉式選單,來更改數據的排列方式。

C. 你可以點擊中間可視覺化區域的任何數據點,將可查看該特定數據點的詳細資訊。

D. 中間區域顯示的各種圖例。

我們試著先按年齡範圍拆分數據,並根據目標值對數據點進行顏色區隔,這裡藍色表示著小於等於 50K ( 5 萬美元),紅色表示大於 50K ( 5 萬美元)。

我們再透過每週工作時數來看到不同年齡層的情況,我們可以看到在 10~20 歲年齡區間,有很大一部分的人每周工作 20~30 個小時,有可能是暑假打工的情況。而隨著年紀愈大,每周工作 30~40 小時的人愈來愈少。右邊是單擊其中一個數據點的詳細資訊。

下圖則是將個別數據放大後的狀況。

將個別數據點放大情況

Facets Dive x Quick, Draw!

我們也可以將 Quick, Draw! 數據視覺化,如果你想進一步探索Quick, Draw!的數據集,則可以使用 Facets 數據可視化平台來瞭解數據

看看不同國家所畫的臉及椅子是如何進行的,以及 AI 是否可以辨識的出來,同時數據可視化將可以讓你更瞭解你的數據!

Quick, Draw! 數據視覺化

有關這一部分大家可以參考下面這篇文章。

或是參考下面教學影片(3:30處)

如果你喜歡這篇文章歡迎分享追蹤,持續關注最新文章。同時臉書(FB)也會不定期提供國內外教育與科技新知。

By Steven Lo (IG:@kwangchih)

--

--