AI World 2022 回顧

12 min readJan 27, 2023

趁著過年期間統整過去一年中所看到的 AI 熱門議題。內容大多為平時看到覺得不錯的文章，稍微濃縮後整理在這篇文章中並分享給各位(都會載明出處)。這幾年疫情也改變人類生活與工作型態，數位轉型成為各產業/企業最關注的議題。人工智慧這塊領域這幾年也爆炸性成長，且深度學習技術正在蓬勃發展中。本文將會以筆者的角度回顧 2022 人工智慧的精彩片刻。若正在看這篇回顧的你，覺得哪裡有疏漏是 2022 經典的回顧也歡迎在底下留言討論～

1. AI 硬體加速器

硬體加速是指在電腦中通過把計算量非常大的工作分配給專門的硬體來處理以減輕中央處理器的工作量之技術。AI 極需要豐富的運算資源，俗話說部署為開發的最後一哩路。該如何將龐大的 AI 模型放在輕巧、低功耗的嵌入式系統是一門需要被關注的課題。你可能聽過 CPU 是整個計算單元的核心，當然計算深度神經網路必須依靠其他硬體加速運算例如: GPU、NPU、TPU、FPGA…等。

DSP 運算能力強，擅長很多的重複數據運算
MCU 則適合不同訊息處理診斷和運算，側重於控制。

1.1 GPU 加速

GPU 雖然在並行計算能力上盡顯優勢，但並不能單獨工作，需要 CPU 的協同處理。GPU 當前只是單純的並行矩陣的乘法和加法運算，對於神經網絡模型的構建和數據流的傳遞還是在 CPU 上進行。

整體運作方式為: CPU 載入權重數據後按照模型架構搭建神經網路，接著將每層的矩陣運算通過 CUDA 或 OpenCL 等接口傳送到 GPU 上實現平行運算，並得到輸出結果。接著 CPU 調度下層神經元組矩陣傳送到 GPU 計算，直至神經網絡輸出層計算完成，得到最終結果。

1.2 NPU 加速

NPU 每層神經元運算結果不用回傳到 CPU 主記憶體中。而是按照神經網絡的連接傳遞到下層神經元繼續計算，因此其在運算性能和功耗上都有很大的提升。

整體運作方式為: CPU 將編譯好的神經網路模型和權重交由專用晶片(NPU)加載，完成硬體載入。接著從 CPU 傳入輸入資料讓 NPU 運行模型運算，最終得到輸出結果回傳。

閱讀更多：深度學習中，CPU、GPU、NPU、FPGA如何發揮優勢？

題外話 Google DeepMind 團隊在 2022 公布首個可用來發現矩陣乘法新演算法的 AI 系統 AlphaTensor。將加速未來數以千計的日常運算任務，達到節能並降低成本的目標。

2. OpenAI 發表自然語言對話語言模型 ChatGPT

OpenAI 所開源的 ChatGPT 聊天機器人爆紅，能寫作、能算數、寫程式，恐取代人類大量的工作。ChatGPT 是一個採用了人類反饋強化學習訓練出來的新模型，加入了大量的道德原則。要完成一個龐大複雜的模型必須要經過以下幾個步驟：

GPT學習文字接龍 (每次回答有隨機性，應該有人引導) => 訓練方式去網路上亂看一些文章句子學習如何說話
人類老師引導文字接龍 => 人類搜集QA給定答案應該回答什麼內容 (Instruct GPT 僅標註數萬則資料，告訴GPT人類的偏好回答方式)
GPT 模仿人類老師的喜好 => 訓練一個 Teacher model 給定 QA 評分這個回答好壞程度，這個老師模型就是模仿人類評分標準
用增強式學習像模擬老師學習 => 調整參數讓 GPT 得到最大的 Reward

官方體驗 ChatGPT
影片：Chat GPT (可能)是怎麼煉成的 — GPT 社會化的過程

當然 ChatGPT 也能幫你寫程式，你只要告訴他你的需求它就會幫你完成。其中Will保哥就是透過此項服務將前端網頁的 jQuery 轉換成原生的 VanillaJS(以往都要透過查表方式自己手動轉換)。你只要學習一些「咒語」就可以讓這個 AI 人工智能引擎幫你寫 Code！

來源：如何利用 ChatGPT 有效率的將網站中所有 jQuery 轉換成 VanillaJS

雖然 ChatGPT 看似無與倫比，但還是需要注意其他延伸的道德相關議題。有網友嘗試對它輸入一些負面的語句，並產生一些激進的言論。

來源：Dcard-AI揚言毀滅人類

3. 生成式AI應用層出不窮

剛剛所提到的 ChatGPT 也算是生成AI範疇之一，除了文字轉文字應用外也能轉成音訊、圖像…等。另外生成式AI跟虛擬也是環環相扣的，元宇宙(metaverse)這一名詞想必大家在這一年中聽到蠻多新創與概念股都環繞在虛擬世界等議題。此外號稱工業元宇宙的數位雙生持續發酵翻轉製造工廠的未來樣貌。

例如我們可ㄧ在 ChatBA 上隨便丟了一篇論文的摘要，馬上跑出精簡的簡報。或是給予報告的主題就可以產生長篇大論的簡報。

官方體驗 ChatBA: Generative AI for Slides

擴散模型 (Diffusion model) 如 Stable Diffusion、DALL-E 和 Midjourney，在藝術設計領域大放異彩。可以說繼圍棋之後，人類在藝術領域也被AI追上來。Stable Diffusion 是 StabilityAI 公司推出的開源「文字轉影像」 AI 模型，過去這兩週被大量討論。過去 OpenAI 的 Dall-E 跟 Google 的 Imagen，其實也都是用相同的 Diffusion Model 架構，來產生各種風格的繪畫及照片品質的圖檔。

語音版 DALL-E，微軟文字轉語音AI給3秒樣本就能準確生成。

3.1 AI 生產力工具一覽

ChatGPT 的出現讓人類意識到資訊生產過程將發生極大的改變。從文法除錯、文案產出、簡報製作、客服應答、智能助理、插圖繪製、研究文獻整理現在通通有相對應的 AI 生產力工具。

[文案類]
Jasper：自動產生文案，你出點子它幫你完成文章
Scalenut：給定主題與每個章節的子標題與字數，直接幫你完成文章
CopyAI：與Scalenut類似，給完文章架構後完成整個文章

[行銷類]
SurferSeo：編寫文章時，即刻給你SEO分數並據此修改
Growbots：管理潛在客戶的名單，並追蹤、個人化 E-mail
ManyChat：自動回覆 FB Messenger 訊息

[繪圖類]
Midjourney
DALL-E 2
NightCafe
Artbreeder
DeepAI

[研究類]
Genei：論文進去後直接幫你分段條列式抓出重點方便閱讀跟報告
Lateral：自動比較不同文獻的立論、爭點、共識、結論
ResearchRabbit：圖像化每篇論文的引用來源、作者、相關文獻
Explainpaper：把論文看不懂的地方標註起來，給你相對應的解釋

[工具型]
ChatGPT：個人助理，無須多說，任何事皆可問
Grammarly：歷史悠久的文法檢閱軟體，檢查英文文章並建議修改方向，大推!
Beautiful.ai：自動簡報設計，給定圖片或文字後自動生成簡報設計
Tome：自動簡報設計，內建AI自動生成圖片，也可自動改寫

來源：生活中的程式

4. 世界最快物件偵測模型新版本 YoLo v7 釋出

雖然筆者在撰寫這篇文時已經有了 v8 版本了，只能說模型更新的頻率就好比智慧型手機剛興盛的時期一樣。YOLO 是 one stage 的影像物件偵測方法，只需要對圖片作一次CNN特徵萃取便能夠判斷圖形內的物體位置與類別。

中研院王建堯博士、Alexey Bochkovskiy 與廖弘源所長在 2020~2021 年間相繼推出了 YOLOv4, ScaledYOLOv4, YOLOR，而在今年(2022)七月初推出了最新力作 YOLOv7。

閱讀更多：最新的物件偵測王者 YOLOv7 介紹

若你是專門在影像識別這塊領域的人或許以下資訊對你會有幫助。這張表格也許不是當今 SOTA 方法，但是筆者覺得這份資訊整理得分常清楚。至少知道什麼樣的神經網路架構適合什麼樣的模型架構。

5. Transformer 模型網路應用於多種任務

注意力機制(Attention Mechanism)目前已經廣泛應用到各種領域中，依據常見的應用類別我們大分分為三大領域：自然語言、電腦視覺以及具有時序因子的訊號類型資料。Transformer 是基於自注意力機制(self-attention mechanism)的 Sequence-to-sequence(Seq2seq) 模型，解決 RNN 無法有效平行運算的問題。近年在圖像描述、聊天機器人、語音辨識以及機器翻譯等各大領域大放異彩。由下圖表可以發現近幾年來 Transformer 於自然語言和電腦視覺領域的學術研究數量逐年成長。

5.1 Meta AI 語音對語音翻譯器福建話也可直譯英語

Meta 宣布以口語表達的「閩南語」打造了史無前例的人工智慧技術翻譯系統，可讓使用閩南語的人士與使用英語的人士對話，打破語言隔閡拉近人們間的距離。由於世界上超過40%語言沒有標準的書寫系統。所謂的 UnitY 是機器為沒有文字的語言發明文字，背後採用自監督式學習的技術。讓機器聽了三萬小時的鄉土劇，輸入一串台語句子，會對每一個發音編碼成一個 unit。在對每個 unit 進行另一個語言的聲音輸出。

影片：Meta 語音對語音翻譯技術背後的黑科技

5.2 特斯拉正式移除超音波感測器，邁向純視覺自動駕駛

特斯拉目前以 Transformer 作為自駕車辨識的主要神經網路。由於單張影像缺少了深度的資訊，因此必須藉由多個鏡頭來協助辨識。而多個鏡頭會面臨到有一個物件出現在多個鏡頭裡的情況。因此需要把所有鏡頭識別出來的車道線、物體等等根據它們的空間關係融合到一個三維的空間向量。CNN 透過卷積一層一層對每個像素點進行特徵提取與計算達成影像辨識任務，而 Transformer 擁有全局視野的優勢，並且能夠動態的調整不同像素點之間的權重，使得模型能夠更精準的找到核心訊息。簡單來說 Transformer 相對於一般的 CNN 能得到更全局的訊息，推論過程中也能更加考慮像素之間的彼此關係，也更接近人對於外界的感知方式。

多個鏡頭影像透過 BiFPN 進行多尺度信息的融合
通過 Transformer 模塊來將圖片表徵轉換到 BEV 表徵作為輸出空間。
使用 Spatial RNN 檢測對象的速度、方向、被遮擋。
使用 HydraNet 的多個 Heads 進行不同任務的預測。

閱讀更多：Tesla AI Day 2021

6. 物理模型結合AI

近年來可解釋人工智慧是一門相當重要的議題，我們訓練一個神經網路往往期待模型除了精準預測外還必須具備可解釋能力。要讓模型學到真實世界中的真理必須要有足夠豐富的訓練資料才能有好的表現，是眾所皆知。此外好的特徵工程能輔助 AI 更快速收斂學到好的結果。傳統的物理模型有非常明確的框架，例如各種從經驗和觀察而得來的物理法則與公式，還有各種數值方法得到的動態模擬等。我們可以藉由物理模型的優點，借力使力引導 AI 學會判斷事物的本質。

來源：physical models with artificial intelligence

AI決策系統依據困難與重要程度可以大致分成下圖中的五種方式。下次要進行一個新的AI專案不防比對一下這張圖，看看任務的需求是屬於哪一種階段。

閱讀更多：資料科學商業分析的五種方式

而模型的型態則有以下這些類型可以應用：

Deep neural network
Multi-layer perceptron-based
Autoencoder-based
Convolutional neural network-based
Recurrent neural network-based
Generative adversarial network-based
Graph neural network-based
Transfer learning
CDRS with side information
CDRS with non-overlapping entities
CDRS with partially or fully overlapping entities
Active learning
Reinforcement learning
Fuzzy techniques
Evolutionary algorithms
Multi-objective
Evolutionary optimization of user/item profiles
Evolutionary optimization of ratings
Natural language processing
Computer vision