AI , ML , DL , Big Data , Data Mining , Statistics
他們是甚麼意思? 又到底差在哪裡?
這是研究所一堂機器學習課程的第一天上課情況
老師一開始就在白板上丟了這六個字:
1. Artificial Intelligence2. Machine Learning3. Deep Learning4. Big Data5. Data Mining6. Statistics
然後問問我們目前的理解為何?那這些詞彙的差異又在哪?最後當成了第一週的作業,也就催生了這篇文章。
可點此處跳至你想看的部分:
AI and Big data
Statistic and Big data
AI and ML
ML and DL
Statistic and Data mining
Artificial Intelligence and Big Data:
人工智慧屬於計算機科學領域的其中一部份,它是一個人類長久以來的目標:
希望透過數據、程式讓電腦能具備和人一樣的知識與行為
而大數據指的是:
傳統程式和軟體不足以在可接受的時間成本下運算的數據集
通常具有四個特性:
- 資料量(Volume)大
- 多樣性(Variety)雜
- 即時性(Velocity)快
- 真實性(Veracity)真
舉個生活中的例子來描述他們的差異性好了,當今社會裡幾乎每個人都會用Facebook、Instagram、Twitter、Whats App……等社群軟體,其後台每天記錄著非常大量的使用者帳戶紀錄(資料量大)
這些紀錄一定包含了各式各樣的資料,像是發文、回復、私人訊息、照片、影片、連結分享……等等,內容(多樣性雜)
它們記錄了大量使用者的各種行為,因此生長速度極快(即時性快)
最後則是為了數據分析而衍生的真實性,畢竟大數據通常用來進行分析後預測某些行為、數值,若其中具有造假的資料則會影響結果、預測準確度,因此確認資料的真實性「真」也成了現今大數據的特性之一。
而人工智慧的演算法可處理各種數據集,其中資料量多與分析結果準確度成正相關,當然資料前處理的方法會影響結果,但以相同的處理方式來說,資料量越多就會越準,像是人類在學習一件事情時,經驗越多越能推論出最終的結果。
即便當今人工智慧開發過程,部分並未使用大數據,但未來應有機會與其密切相關,才能發揮彼此最大的價值。
Statistics and Big Data:
統計學是應用數學的分支
主要利用機率和數學模型來解釋、驗證預期的假設是否為真
與上述大數據主要差異在於:統計通常採取抽樣的做法找出樣本後進行分析,大數據則透過程式觀察大部分的相關數據,因此統計的數據集相對較小且乾淨,大數據處理的數據集則大又混亂。大數據又因為具有即時特性,時常有新的資料加入數據集,分析經常是動態的,統計分析則相對靜態。
Artificial Intelligence and Machine Learning:
以上述Facebook的例子延伸,機器學習這項技術可以讓Facebook分析使用者點擊過的內容,得出使用者可能喜歡的內容作為結果,再依據這些結果進行推薦,讓用戶體驗符合個人喜好。所以它算是人類對人工智慧這個目標的一種實踐方式。
Machine Learning and Deep Learning:
兩者皆為人工智慧的演算法,差異在於兩者進行分析、學習資料前,機器學習需要人為定義哪些數據作為演算法學習的對象,明確地給電腦,人類認為具有特徵的部分;而深度學習則是以神經元理論為基礎的演算法,它會主動發現數據中的特徵與規律,過程完全不需要人為介入。
Statistics and Data Mining:
統計與資料探勘主要差異在於:
分析前是否有既定的研究假設
統計學通常會帶有一些對分析結果的推論,才進行分析,並且證實相對應的論點。而資料探勘則會在無預設立場的情況下,以特定方法挖掘出資料的特徵(資料間關聯性)。兩者皆可在結果應用上皆可進行符合目標的分析預測。
今天先到這邊,還有其他的排列組合比較我沒寫出來,如果有人有興趣也歡迎在下面留言討論~