AI 入門:22. 影像辨識 — 卷積神經網路(CNN)

作者:解決方案顧問 王慶祥 (Mike Wang)

在上一篇文章中,我們完整探討了深度學習框架。現在,讓我們轉向一個重要的應用領域 —— 影像辨識,並介紹其中的核心技術,想了解更多資訊內容就跟著我們的腳步往下閱讀吧!📖 💡

視力 (Sight) 和視覺 (Vision) 都很重要,這二者讓我們人類能夠與周圍的環境相互聯繫,保持安全並確保思維的清晰。儘管這兩者常常被混為一談,但它們實際上是完全不同的實體:視力 (Sight) 是一種感官體驗,眼睛聚焦在形狀和物體上反射的光線,並創造出信號傳送到大腦;視覺 (Vision) 則是大腦對這些信號進行解釋的過程。視力 (Sight) 可以讓人類目睹一個事件,但視覺 (Vision) 則協助人類理解這個事件的重要性並做出相對應的解讀。

與人類不同,電腦將靜止的照片、影像、圖形、圖畫或網路直播串流影像中的圖像“視為”一個由數值組成的陣列 (Array)。因此,影像識別 (Image Recognition) 是一個經常用來描述電腦技術的專業術語。透過尋找數值型態 (Numerical patterns) 來識別關鍵特徵,影像識別技術可在數位影像中辨識出物體或特定的圖案。這個術語與“電腦視覺 (Computer Vision)”和“影像處理 (Image Processing)”有直接關聯。前者是訓練電腦像人類一樣擁有“看”的能力,後者則是描述電腦對影像資料進行各種密集工作處理的總稱。

影像識別可以採用多種技術,但實務上最受歡迎的方法是使用卷積神經網路 (Convolutional Neural Network, CNN),這個神經網路技術可以透過一系列人工神經元層 (Artificial Neuron Layers) 對影像資料進行篩選。作為一種深度學習演算法,CNN 能夠接收圖像資料並從多個角度賦予圖像不同的權重和偏差,進而對圖像進行區分。

CNN 的結構類似於人類大腦中神經元的連接模式,其靈感來自於大腦中處理視覺資訊的單元 — 視覺皮層組織 (Visual Cortex)。假設您看到一張以前從未見過的汽車照片,您可以透過觀察圖片中的物件(通常是組成一輛汽車的零部件)來辨認出它是一輛汽車,例如:擋風玻璃、車門、車前燈、車尾燈和車輪。透過識別每個小物件並將它們組合在一起,即使您以前從未學習如何將汽車零件組合成一輛汽車,您仍然可以知道出這是一張汽車的圖片。

CNN 的原理就像上述識別汽車照片的例子一樣,它先學習物體的個別部分,並儲存在各個神經元中,然後將這些個別部分相加以識別完整物體。這種方法非常有效,因為只需要少量的神經元就能夠捕捉到特定物體的多樣性特徵。例如,如果我們記住 10 種不同類型的車輪、10 種不同類型的車門和 10 種不同類型的擋風玻璃的範本 (Templates),我們就可以用 30 個範本的成本來捕捉 10∗10∗10 = 1,000 種不同的汽車。這比保留 1,000 個獨立的範本更加經濟高效(順便一提,大量範本中可能包含大量重複資料)。此外,我們還可以在不同類型的物體之間重複使用這些較小的範本,例如自行車也有輪子,房屋也有門,飛機也有輪子、艙門和擋風玻璃。因此,我們可以透過使用較小的個別部分範本組合來構建更多種類的物體,並且能夠非常有效率地完成。

儘管 CNN 擁有自己的專屬名稱,但它與其他神經網路並無明顯的區別。事實上,CNN 繼承了神經網路的所有功能,並透過引入一種稱為卷積層 (Convolutional Layer) 概念的新隱藏層,以及其他創新技術來改進神經網路的效能,例如池化層 (Pooling Layer)、步伐 (Stride)(控制過濾器如何圍繞輸入資料進行卷積運算)和填充 (Padding)(一個可以被加入到影像邊界的額外層)。和其他神經網路一樣,CNN 由具備可學習權重和偏差的神經元所組成,每個神經元接收多個輸入節點,對這些節點進行加權彙總,並透過啟動函數 (Activation Function) 傳遞這個彙總值,最後則以輸出作為回應。整個 CNN 網路有一個損失函數 (Loss Function),用於評估這個神經網路的適用性,也就是定義訓練樣本與真實資料之間的誤差。

影像識別技術已成為許多不同應用場景中的基礎技術,其應用範圍不僅限於掃描大量照片來尋找特定物件。舉例來說,手機中的攝影鏡頭可以透過影像識別技術辨識人臉,而 Facebook 則運用這項技術輕鬆地找出您的家人和朋友。像特斯拉 (Tesla) 這樣具備“輔助駕駛 (Self-driving)”技術的汽車也配備了攝影鏡頭,可以分析周圍環境,確保它不會與其他車輛、人或其他物體相撞。消費級無人機 (Consumer-level drones) 現在也配備了攝影鏡頭,不僅可以防止它們撞上建築物和樹木,同時在全球定位系統(GPS)信號較弱時也不至於迷航。醫療產業將影像識別技術應用於分析 X 光片、紫外線圖像、CT 掃描圖像等,以便更準確地診斷病人的病情。製造業則將這項技術使用在生產線流程檢測、產品品質及不良率監測等應用場景。

參考資料:無

👉想了解更多,歡迎追蹤北祥科技服務的粉專喔~
北祥科技服務官方網站:https://www.pershing.com.tw/
北祥科技服務FB粉絲專頁:https://www.facebook.com/ptsc.taiwan
北祥科技服務Linkedin:https://www.linkedin.com/company/pershing-technology-services-corporation/mycompany/

--

--

北祥科技服務股份有限公司

「北祥科技服務」是對資訊充滿熱情的團隊,我們追求創新,同時謹慎可靠,我們敏捷迅速,且更在乎你的需求,不斷探索智能應用的可能性,以資訊科技服務驅動世界前進,為世界帶來正向改變。