解密機器學習(Part2)

yuwei
Jacky’s blog
Published in
Dec 21, 2018
source

接下來,我們進到分類的章節,分類與迴歸不一樣的是,分類是有種類的區別,舉例來說,使用Lebron James的數據可以來預測比賽的輸贏,而’輸’和’贏‘就代表著分類的結果,分類主要是透過找出下圖的可以完美分割出不同的種類

而這條線不是我們所談論的一次函數,而是向量

是由法線向量構成,在這裏,法線向量相對於某直線的垂直向量

接下來,想必你會好奇那這樣每個參數要怎麼更新

不一定每個分類資料集都可以線性分離,所謂的線性分離是只要畫一條線就能分出不同的target,也因為這樣,有了線性不可分離的產生,就是Logistic Regression

很像上一張所提過的線性回歸的概念,只是把函數帶入識別函數(S型函數)裡,得出機率值,如果>0.5,就會屬於分類1,<0.5,就會屬於分類0,而這樣的方法又被稱為決策邊界

上面的目標函數是因為y不是1就是0,所以可以把它組成上述的目標函數,也就是cross entropy,最後我將把它轉成用log,因為面對聯合機率會使得L(theta)越來越小,這樣會變得很難處理,所以加上log會更容易運算,這樣不會有問題,因為log是往右單調遞增函數,所謂的單調遞增函數就是x1<x2,則f(x1)<f(x2)

想必你們會覺得很複雜吧,但尚未結束喔,最後一張

講完回歸和分類之後,我將向你們解釋如何去評估模型,

最後來到了學習函數,根據資料個數的越來越大,會使得學習用和測試用的精度越來越逼近。學習用資料如果越多,儘管幅度不大但還是會使得測試用資料預測的精度增加

這種將資料的個數與精度繪製出來的圖型,被稱作為學習曲線。

結論

謝謝你們從part1堅持到現在,機器學習的幅員廣大,你要的只是掌握這些基礎知識,使用別的大神寫好的套件,你就有機會變成強者,2018/12/21有可能成為一個我永遠無法忘記的日子,我會繼續努力的,謝謝你們在通往成功的路上陪伴著我,每個看我文章的你們永遠都會是我的貴人

一如往常,如果有問題,麻煩儘管寄信給我,我的信箱是jacky308082@gmail.com

--

--

yuwei
Jacky’s blog

Curious Data scientist. Strong Lebron James’s fan. #StriveForGreatness #JustAKidFromTaiwan https://www.linkedin.com/in/yu-wei-chung/