Jinn-Yuh Guh
Math and statistics
3 min readJun 10, 2020

--

因果關係

  • 預測(在一個新的族群,x1 是否能預測 y?):低偏差是正確性,低變異是精確性。模型愈複雜,偏差愈低,但是變異愈高。預測值的誤差等於偏差 + 變異,「偏差-變異權衡」就是取一個讓誤差最低的模型。即使 x1 的 95% 信賴區間包含 0、模型有偏差或模型的假設不符合也無所謂。這是機器學習的目的。
  • 解釋(模型是否能解釋產生 y 的理論?):x1 的 95% 信賴區間不能包含 0?模型必須無偏差(x1 是不偏估計值)、模型的假設必須符合(例如:線性回歸的假設是殘差常態分佈和等變異性,x1 和 y 的關係是線性等)。這是傳統統計學的目的。
  • 能預測的模型不一定能解釋,能解釋的模型不一定能預測。

混淆變項 C (x1 ← C → y):必須要校正,如果不校正會產生「假相關」。

中介變項 M(x1 → M → y):如果沒有校正,那麼是總效果;如果有校正,那麼是直接效果。

碰撞變項 c(x1 → c ← y):不可以校正,如果校正會產生「假相關」。

因果關係屬於解釋的一種:

相關(x1 和 y 是否有關係?):看見。有哪些情形會有蛋白尿?

介入(如果做了 x1 是否會造成 y?):做。如果降低蛋白尿是否能改善腎功能?

反事實(在已經做了 x2 的人,如果做了 x1 是否會造成 y?):想像。在 RENAAL 臨床試驗中,如果對照組的病人也吃 ARB,那麼他們的蛋白尿是否會減少?

圖形因果模式(DAG:有向無環圖)

See(相關):灑水器和下雨都可能是是造成路滑的原因

夏天. ⟶. 下雨

↓. ↘

看見灑水器開著 → 路滑

Do(介入):證明灑水器是造成路滑的原因

夏天. ⟶. 下雨

. ↘

打開灑水器. →. 路滑

(夏天 ∐ 路滑 | 打開灑水器,∐ 代表「條件獨立」,亦即圖形中的「d-separation」)

統計學:由資料的聯合機率分佈(P)推論 Q(P),例如:P(B|A)

結構因果模式:由 P’(被 do 改變的 P)推論 Q(P’),例如:P(B|A’)

Q(M) ← 產生資料的模型 M(「神諭」)→ P → 資料

結構因果模式:一個四元組:U(外在變數)、V(內在變數)、F(決定 V 的函數)、P(μ)(U 的分佈)。P(μ) 和 F 決定了 P(V) 在可觀察變數上的分分佈。x̄ = delete all edges to x, 𝚣̲ = delete all edges from z.

規則 1(捨棄變數):P(y)|do(x), z, w = P(y)|do(x), w if (y ∐ z | x, w)Gx̄

規則 2 (觀察/介入變項互換): P(y)|do(x), do(z), w = P(y)|do(x), z, w if (y ∐ z | x, w) Gx̄𝚣̲

規則 3: 忽略介入:P(y)|do(x), do(z), w = P(y)|do(x), w if. (y ∐ z | x, w) G(x̄zw)

--

--

Jinn-Yuh Guh
Math and statistics

台灣、高雄、教授、高血壓、糖尿病、腎臟病、統計學、資料、藝術、繪畫、音樂、科學、文學、哲學,Nephrologist, professor, data science, Chinese, Taiwan, science, literature, paintings, music, art, philosophy