AI , ML , DL , Big Data , Data Mining , Statistics

他們是甚麼意思? 又到底差在哪裡?

Ken Huang

Published in

人工智慧，倒底有多智慧？

Sep 20, 2020

這是研究所一堂機器學習課程的第一天上課情況

老師一開始就在白板上丟了這六個字：

1. Artificial Intelligence2. Machine Learning3. Deep Learning4. Big Data5. Data Mining6. Statistics

然後問問我們目前的理解為何？那這些詞彙的差異又在哪？最後當成了第一週的作業，也就催生了這篇文章。

可點此處跳至你想看的部分：
AI and Big data
Statistic and Big data
AI and ML
ML and DL
Statistic and Data mining

Artificial Intelligence and Big Data：

人工智慧屬於計算機科學領域的其中一部份，它是一個人類長久以來的目標：

希望透過數據、程式讓電腦能具備和人一樣的知識與行為

而大數據指的是：

傳統程式和軟體不足以在可接受的時間成本下運算的數據集

通常具有四個特性：

資料量（Volume）大
多樣性（Variety）雜
即時性（Velocity）快
真實性（Veracity）真

舉個生活中的例子來描述他們的差異性好了，當今社會裡幾乎每個人都會用Facebook、Instagram、Twitter、Whats App……等社群軟體，其後台每天記錄著非常大量的使用者帳戶紀錄（資料量大）

這些紀錄一定包含了各式各樣的資料，像是發文、回復、私人訊息、照片、影片、連結分享……等等，內容（多樣性雜）

它們記錄了大量使用者的各種行為，因此生長速度極快（即時性快）

最後則是為了數據分析而衍生的真實性，畢竟大數據通常用來進行分析後預測某些行為、數值，若其中具有造假的資料則會影響結果、預測準確度，因此確認資料的真實性「真」也成了現今大數據的特性之一。

而人工智慧的演算法可處理各種數據集，其中資料量多與分析結果準確度成正相關，當然資料前處理的方法會影響結果，但以相同的處理方式來說，資料量越多就會越準，像是人類在學習一件事情時，經驗越多越能推論出最終的結果。

即便當今人工智慧開發過程，部分並未使用大數據，但未來應有機會與其密切相關，才能發揮彼此最大的價值。

MasterCard的Logo幾何關係，很貼近我想像中AI與Big Data的關係

Statistics and Big Data：

統計學是應用數學的分支

主要利用機率和數學模型來解釋、驗證預期的假設是否為真

與上述大數據主要差異在於：統計通常採取抽樣的做法找出樣本後進行分析，大數據則透過程式觀察大部分的相關數據，因此統計的數據集相對較小且乾淨，大數據處理的數據集則大又混亂。大數據又因為具有即時特性，時常有新的資料加入數據集，分析經常是動態的，統計分析則相對靜態。