Machine Learning學習日記 — Coursera篇 (Week 3.2):Cost Function, Simplified Cost Function and Gradient Descent, Advanced Optimization

Pandora123

8 min readMay 31, 2016

Logistic Regression Model

回目錄：Coursera章節
上一篇：Classification and Representation
下一篇：Multiclass classification

大綱

Cost Function
Simplified Cost Function and Gradient Descent
Advanced Optimization

1. Cost Function

我們可不可以繼續用之前Linear Regression的cost function呢？

答案是不行。

但是cost function不就是為了求得我們的預測函數的誤差嗎？

為什麼不能繼續沿用呢？

因為當函數不再是線性函數時，sigmoid的函數平方項將會造成一個 unconvex的函數圖形
這意味著，我們很有可能走到一個距離global optimal solution還很遠的地方就停下來了(local optimal solution)，正如上圖所示

因此我們要找到一個新的函數可以讓我們的J(θ)長得像下面的convex圖形

新的cost function函數：

大家可能會感到疑惑：這個函數到底要幹什麼？

這個函數的精華就是當預測失敗的時候，我們要讓預測誤差變得很大
並隨著預測數字離正確答案越近，預測誤差會漸漸趨近於0

第一行：-log(hθ(x)),if y=1

這代表當y為1的時候，根據我們的hypothsis及正確答案的數據計算所得到的預測誤差

而hθ(x)所得出的就是一個介於0和1的機率數值(預測結果為1的機率)

而這個函式會形成下列圖形(實際上這只是圖形的一部分，因為我們只繪出x=0~1的函式圖形)：

可以想像成f(x) = -log(x)，x的範圍是從0至1
而我們可以發現當x越往0趨近，cost(其誤差)會趨近無限大，因為這代表著其與正確答案 y=1的差距
反之當x越往1趨近，cost會趨近於0直至變成0

第二行：-log(1-hθ(x)),if y=0

則會形成下列圖形

當x越往1趨近，cost(其誤差)會趨近無限大，因為這代表著其與正確答案 y=0的差距
反之當x越往0趨近，cost會趨近於0直至變成0
在上述的cost function中，可以發現當我們設定出一個 hypothesis後，我們透過加總其hypothesis跟solution的誤差來求得我們的J(θ)
而我們預期可以找到一個最佳的hypothesis使得所有的cost加總為最小(Andrew說covex的相關分析超出課程範圍)
總之，這代表著此函數將可以形成一個 convex圖形，並可以依此找到global optimal solution

隨堂練習

Ans：

2. Simplified Cost Function and Gradient Descent

我們現在有了計算每個誤差及cost function的函式

但現在有個問題：

難道每次我們計算預估誤差時，都要先檢查一下y是1或是0嗎？
而且這種需要先行判別的函數沒有辦法直接偏微分，並導出Gradient Descent
有沒有更簡潔有力的寫法呢？

for i = 1 to m {
    x = X(i); // x為第i項的資料
-----------------------------------------------
    if (y == 1){
        Total_cost = Total_cost + (-log(hθ(x)));
    }
    else if (y == 0){
        Total_cost = Total_cost + (-log(1-hθ(x)));
    }
-----------------------------------------------
}