Machine Learning 共筆 Week 1

tierwint
No Free Lunch
Published in
3 min readFeb 13, 2018

Introduction of machine learning

採用 Coursera 林軒田大大的機器學習課程

本週課程會沿著以下的路線走:

  • 什麼時候可用機器學習?
  • 這些情形為什麼機器學習可用?
  • 要怎麼學 ML?
  • 要怎麼樣讓 ML 做得更好?

What is Machine Learning?

什麼是學習?

  • 學習從觀察出發 → learning → 技能
  • 我們希望用電腦來模擬類似的學習過程,學習主體是電腦
    data → ML → skill
  • 舉例來說:
    stock data → ML → more investment gain

機器學習使用情境:

  1. 畢竟有些東西我們不知道怎麼事先定義規則:
    例如上火星會遇到的問題,我們不可能預先定義好所有會遇見的狀況,這時候就要靠機器觀察環境狀況
  2. 有些東西我們不容易寫出定義,像是聲音和視覺的辨認,規則很難訂
  3. 需要被快速決定的任務
  4. 需要大規模的個人化服務

需要思考問題適不適合使用機器學習,有三個關鍵:

  1. 要有效能可以增進,要有某些目標可以讓機器去學
    像是數學的目標,讓證明的正確率上升
  2. 有規則,但我們不知道該怎麼寫定義 (no programmable definition)
  3. 機器學習一切都是以資料開始的,所以需要有資料

機器學習的應用

食 (food)

  • data: Twitter data (word + location)
  • skill: 容易食物中毒嗎?

  • data: 銷售數據 + 顧客研究
  • skill: 給出推薦的時尚穿搭

  • data: 建築特徵 + 耗能程度
  • skill: 預測建築物蓋好之後的能源消耗

  • data: 交通號誌
  • skill: 提升號誌辨識的準確率

  • data: tutoring system 上的 quizzes 紀錄
  • skill: 預測學生答題的程度,答下一個題目會不會答對

  • data: 讓使用者對某些電影評價
  • skill: 推薦使用者一些他們可能會喜歡的電影

範例: 機器怎麼學習我們的喜好

推薦系統的模型:

  • 把人的喜好化成特徵數字欄位
  • 喜歡動作片 → 在動作片那欄的特徵數字就高一點
  • 把電影化成特徵數字欄位
  • 對兩個特徵數字欄位做比較: viewer/movie factors → rating
  • 機器手上只有 rating,要知道 viewer 可能會給下一部電影的評價必須從 rating 反推回來
  • 先將下一部電影化成特徵數字欄位 → (movie/unknown movie) * rating

所以推薦系統的學習方式:

  • known rating
  • learned factors
  • unknown rating prediction

Components of learning

以信用卡申請為例

想解決的問題:

  • 究竟使用者會好好用卡還是會造成問題呢?
  • 怎麼發卡才會對銀行最好?

從資料出發,資料來自我們想學但暫時還找不到的理想 f pattern (f 產生出資料) → ML → 告訴我們 g ,用來預測之後的資料

這流程內有兩件需要注意到的事情:

  • (1) f 我們不會知道,知道就不用 ML 了
  • (2) g 要和 f 很像,差異越小越好

並且:

  • 會有各種 g hypothesis 的公式在一個大集合 H 內
  • 機器學習就是要從看到的資料內,去 H 集合中挑出覺得最好的公式

於是 ML 一開始會有兩種資料輸入:

  • 看到的資料
  • 允許選擇的 hypothesis 集合也就是 H

重新定義機器學習:

從資料出發 → ML 算出 g → g 要很接近 f

也就是如 Quizz 的答案:

  • 一開始拿到了一組 Data S4 (由 f 產生)
  • 跑演算法 A 在 S3 中挑出 g
  • g 就能在未來從任何的 S2 中給出 S1 這個答案

--

--

tierwint
No Free Lunch

Product Design / Crypto Currency / Machine Learning