AI入門:ML學習筆記[AI-001]
人工智慧時代來臨!老師帶我飛, plz!
是AI還是Rule-based?
當今天建造一個聊天機器人,我們說出turn it off,聊天機器人會幫助我們將音響關閉。
但是當我們說出Please don’t turn it off,機器人仍舊把音響關閉了。
此時,這就是Rule-based的假AI。成山成堆的if-else的判別式。
讓機器擁有自主學習的能力
像教小孩的方式,
告訴他什麼聲音波幅的型態=Hi,再找個人跟他說Hi,讓他也能知道喔,有個人在跟他打招呼。
如何又避免落入寫死板板的規則?
透過機器人找到Hi的聲音波幅特徵,讓機器自己判別Hi的音高、音頻、音調等等參數,並且找一大批人跟機器人說Hi,讓機器人掌握了大多數人的Hi長什麼樣子。
- 而不是幫他寫好,路人甲的Hi是長這樣,要有什麼音高、音頻、音調;路人乙的Hi是長…..(一大堆if-else的判斷式)
機器學習的方式還有很多種?
根據李弘毅老師的機器學習架構中,我們可以得知,機器學習是從function中選擇最好的那一個的過程。
因此,我們的資料集會有Training Set[訓練集]、Testing Set [測試集]
(大部分的時候會有Validation Set,而將Testing Set視為真實世界資料的驗證集)
透過訓練集的資料,進行資料建模,並從中衡量最好的模型方程式(function)為何,挑選後,再由測試集,用相同的衡量標準,來持續監控模型的好壞。
機器學習就像把大象塞進冰箱
三個步驟,把門打開-> 把大象塞進去->把門關起來,好了。
學習地圖 (Learning Map)
從監督式學習(Supervised Learning)的方式開始,我們必定會先透過迴歸(Regression)方程式的方式來進行預測,是進行數值的預測;
另一種則是透過分類(Classification)方程式,是進行類別的預測,通常是Y/N的問題,或是多類別(階層的預測)Class1/Class2/Class3。譬如新聞稿來,這篇文章是政治類、經濟類、社會類或是財經類,機器學習能夠識別出文章的類別為何。
迴歸方程式 Regression
將會聚焦在線性迴歸的內容為主。簡單的就如國中大家都曾經學過的,ax+b=y。就可以是一個簡單線性迴歸,給定一個x值,就能得出y值。
Non-linear Model
涵蓋了Deep Learning,特別複雜的方程式。
應用於下圍棋、圖像辨識、聲紋辨識等等。
以下圍棋為例子,棋盤上是有19乘19的格子,就可以視為是要做19乘19的分類問題。透過餵給機器一大堆棋譜的方式。告訴他可以有哪些規則的可能性,讓他在資料input後,可以自己找到最好的output。
非線性模型也包含了如SVM、決策樹(Decisioin Tree)、K-NN等等方法。
監督式學習的限制
需要大量的labelled data(Y),需要人工標註好一大批的答案,讓資料去學習。
突破點,能不能綜合有label、unlabeled data=>Semi-supervised Learning。
有label,有unlabeled data且有更多無關的data=>Transfer Learning。
無師自通的Unsupervised Learning
給機器一大多無規則的文章,亂爬文後,讓機器來告訴我們這個詞代表什麼意思(可能是一個vector)。
或是從動物園的照片後,自己造獨創的動物出來。
只有input,機器會如何產出output。
Structured Learning
input一段聲音,機器學習能夠依據function,去拼組出符合語言學的句子。
Reinforcement Learning
事實上,發展歷程已久。因為在這個架構下的學習方式,機器在遊戲的表現上,幾乎都比人類還要優秀(也包含了下圍棋)。
是一連串的預測過程中,機器只知道最終的結果是好/壞。機器必須自主從評價中學習。(Learning from critics)
像極了人生沒有正解,只有相對活的精采或乏味。