人工智慧運算時代的來臨 | Era of AI Computing

了解 AI 硬體發展進程 | Insight into AI hardware companies — Nvidia, AMD, Tesla, Google, and new startups

Eric
Insights the Chips World | 洞悉晶片的世界

--

Please check out English version at the bottom

# 前言

在 2023 年的 Tesla Earnings call,當大家想了解對於全自動駕駛 (Full Self-Driving, FSD) 軟體發展進程,Elon 給出這樣的答覆

If we had more training compute, we’d get it done faster

實實在在的點出當前 AI 發展的瓶頸 — 硬體資源的匱乏。

特斯拉擁有極大量的駕駛影片,如果硬體資源足夠的話,就能更有效率的使用大量影片資料來訓練出更強大的 AI 模型。也因此 Elon 直接點明了 FSD 目前發展的速度,受限於硬體資源。

本篇文章主旨想帶領各位了解這個新興產業,認識設計「 AI 硬體」的科技公司,比較其產品之間的差別,讓各位對 AI 硬體方面有更多的認識。

# 目前正在開發 AI 雲端硬體 (Data Center) 的公司

Nvidia

在 AI 硬體產業中,Nvidia 是最大的公司,擁有超過一半的市占率。Nvidia 利用自己長年以來設計顯示卡的經驗以及 CUDA 軟體的生態系,拓展到 AI 晶片上,成為最具規模的先行。

Nvidia 最重要的是他們的 CUDA 軟體架構,由於這個架構已經行之有年,各種應用問題都能用 Nvidia 的硬體去做加速(天氣預測、物理模型模擬、人工智慧影像/語音訓練、虛擬實境構建)

Nvidia 目前最新的 AI GPU 晶片為 H100。擁有的800億顆電晶體數量,使用 HBM3 記憶體技術擁有 80GB 容量以及 3.3TB/s 的記憶體頻寬,能耗表現 700W,屬於較高的區段。與上一代 A100 相比,頻寬為其上一代 1.5 倍左右,運算吞吐量為 3.5 倍左右 (以 FP32 計算),功耗多約 2 倍。除此之外,若干個 H100 可以藉由 NVLink 連接一起形成一個更大的計算單元 — DGX H100

H100 運算吞吐量與 A100 相比 / 截圖自 Nvidia 發表會 YouTube 影片

因此 Nvidia 的 AI 硬體屬於通用型…

--

--

Eric
Insights the Chips World | 洞悉晶片的世界

Senior Software Engineer at Tesla | 2021 UC Berkeley EECS | 2019 NTUEE.