Machine Learning學習日記 — Coursera篇 (Week 1.1):Supervised learning,Unsupervised learning,regression,classification



Introduction

綱要

  1. Supervised learning
  2. Unsupervised learning

1. Supervised Learning

Supervised Learning:”Right answer given”

Regression(回歸)

predict continuous value ouput

例:根據房屋大小來預測房屋的售價

儘管價格還是有其最小單位(1元),但此處仍將其視為是連續的值(Continuous)

而預測的模型可以由線性(紅色的線)或是二次方程式(紫色)來預測

兩種方式沒有孰優孰劣,也不保證預測的準確性

但在此情況下紫色的線顯然是個更為符合資料分配的模型

Classification(分類)

Discrete(離散) value output (0 or 1)

例:預測一個腫瘤良性/惡性的機率大小

一個classification的問題會比較像是,若已知腫瘤大小,那麼其為良性/惡性的機率會有多大?

隨堂小考:

*identical:相同的|compromised:未被授權的侵入

大家可能會對Problem 1有點小疑問:為什麼存貨可以被視為continuous?

我猜應該是當所要預測的數值很大的時後,就可直接將其視為continuous

在討論區也有人po了一則有趣的問題

Scenario:情境

乍看之下還真的覺得頗有道理的,直到下面有人回應

curve:曲線|scale尺度

大意就是說都衡量出臨界點了幹麻再比較一次高低,突然覺得自己好蠢XD

2. Unsupervised Learning

Unsupervised Learning:”No right answer given”

沒有標籤的資料(代表沒有正確的資料)

例:Google news的歸類

隨堂小考:

address:解決(問題)|labeled:標籤為…|spam:垃圾郵件|filter:過濾器|market segment:市場區間|diagnosed:診斷出|diabetes:糖尿病
address:解決(問題)|labeled:標籤為…|spam:垃圾郵件|filter:過濾器|market segment:市場區間|diagnosed:診斷出|diabetes:糖尿病
重點在於給予其訓練的資料是否有著”記號”,像是第一個問題就是:給予事先標示好的email(是否為垃圾郵件)來讓機器學習。這是屬於supervised的類別,因此不選。