Machine Learning學習日記 — Coursera篇 (Week 3.1):Logistic Regression, Classification, Hypothesis Representation, Decision Boundary


回目錄:Coursera章節
上一篇:Octave Tutorial
下一篇:Logistic Regression Model

Classification and Representation

大綱

  1. Classification
  2. Hypothesis Representation
  3. Decision Boundary

1. Classification

複習一下最開始介紹的classification觀念
Transactions:交易/ Fraudulent:欺詐的/ Tumor:腫瘤/ Malignant:惡性的/ Benign:良性的

分類問題通常比較偏向預測出二元的結果(是/不是)

當然也有更多元的結果,在後面詳述

當我們要預測的結果類別(ex:y=-10000,-9999,...,-1,0,1,2,3,4....100000000)多到一定程度後,就是個 Regression的問題

你可能會問,那為什麼我們不用Regression的模型來解決Classification的問題就好?

Threshold:門檻/ classifier:分類器
當我們算出來的機率>0.5的時候就把它歸類到1,<=0.5就歸類到0,這樣不是也行得通嗎

答案是不行。因為Regression的特性(貼近每個點)可能會造成判斷失誤

假設我們在右上方新增一個新的樣本

這會產生一條新的回歸線(紫色)

這將會使得原本屬於惡性腫瘤的部分樣本會被歸類到良性

Linear Regression解決不了classification的問題

因此我們要採用的是Logistic Regression來解決classification問題

Logistic “Regression”只是慣用詞,與Regression本身沒什麼太大關係

隨堂練習


Ans:

第一個選項錯的原因:與feature scaling無關
第二個選項錯的原因:回歸線可以無限延伸而超出0,1之間的範圍
第三個選項錯的原因:

2. Hypothesis Representation

The function that represents the "Logistic Regression"

Logistic regression引進了sigmoid函式的概念

呈現的圖形分佈會如下圖

g(z)即sigmoid function,而z為θ的轉置矩陣乘以x。
當z上升/下降到一定程度後就將其判斷為1/0(通常用0.5來界定)

所以我們的假設h(θ)求的就是根據輸入資料 x,來預測惡性腫瘤的機率

舉例來說,當給予x0(為1),x1兩個參數代入h(θ)函數後,假設得到0.7的數字

那麼代表病患可能有70%的機率罹患惡性腫瘤

我們可以用下列函式來表示:當給予x與θ參數時,惡性腫瘤(y=1)的機率是多少(h(θ))?

也可以表示:當給予x與θ參數時,良性腫瘤(y=0)的機率是多少?

所以我們可以推導出一個結論,病患罹患惡性腫瘤的機率+罹患良性腫瘤的機率 = 100% (假設病患罹患的腫瘤不是良性就是惡性)

隨堂練習


Ans:

3. Decision Boundary

前面所提的Logistic Regression的函式

假設預測出來的機率>0.5,就判定為惡性腫瘤,反之則為良性腫瘤

我們用z來當做x軸,那麼z是什麼呢?

z就是θ的轉置矩陣乘上x

從下圖中(粉紅色區塊為一律判定為惡性腫瘤的區間),我們可以發現機率(y軸)高於0.5的區間,其z值(x軸)同樣也高於於0

所以我們可以得出一個結論,當z>0時,就是惡性腫瘤,<0則為良性腫瘤

實際舉例

假設h(θ,x) = g(z)=g(θ0*x0+θ1*x1+θ2*x2)=g(-3+x1+x2)

(把z展開,同時給予θi(i=0-2)的值)

那麼根據方才的結論得到下圖:當z(記得把z展開)>0時,就是惡性腫瘤

經過推導後,可以得出:當x1+x2>=3時,就是惡性腫瘤

這個條件式在圖表上會形成一個粉紅色的線來區隔良性及惡性的腫瘤

這條區分出腫瘤的種類、粉紅色的線,就是Decision boundary

另外一個非線性的實際舉例

一樣都已經先給予了θ的值以及z(θ0+θ1x1+θ2x2+...)

根據之前的結論得到下圖:當z(記得把z展開)>0時,就是惡性腫瘤

會得出decision boundary的函式

呈現在圖表上(粉紅色的線)

隨堂練習


Ans:

Step 1:求出decision boundary的函式
z = 5 - x1,當z>0的時候代表預測為惡性腫瘤(y=1)
所以得出decision boundary:5-x1>0預測為惡性腫瘤
Step 2:繪出圖形,基本上有兩種可能
Step 3:判斷哪邊為惡性(y=1),哪邊為良性(y=0)
當5-x1>0代表其為惡性,所以x1小於5的區間都為1(惡性),大於5的區間都為0(良性)。
選擇答案。