帶你清楚了解ANOVA表
二、ANOVA表
1.迴歸的基礎概念
首先我們先來了解線性迴歸式的構成
y是受影響或你想推論的應變數,β1就是截距,β2、β3就是自變數,
簡單線性迴歸跟多元線性迴歸只差在後面拖多長,開心的話β100也ok
上面有^的代表是估計的結果, ̄的是平均數,Yi是每筆資料的落點
搭配圖可以發現SST=SSR+SSE,總和=迴歸+殘差
細心再拉回上篇看R平方的公式就會看懂,
迴歸模型的解釋係數R平方=迴歸SSR/總和SST,這真是再正常不過了
如果這張圖是一個Model的話那他R平方也會<50%,因為SSE>SSR
2. ANOVA本人-變異數分析(Analysis of Variance)
用白話文總結這三個東西的關係:
總和SST=(每筆資料真實數值-資料的平均)的sum
迴歸部分SSR=(每筆資料估計數值-資料的平均)的sum
殘差部分SSE=(每筆資料真實數值-每筆資料估計數值)的sum
建議是記圖再畫下來比較容易理解
SS÷df=MS
除上自由度變成均方差就是把他標準化,
假設今天請你比較165公分65公斤和170公分70公斤哪個比較胖,
一般人第一個反應會是算BMI,超過24就是胖低於18就是瘦
那統計學同樣是在算BMI,只是公式看起來可怕且要查表的BMI
2-2. F值公式
用標準化後的SSR和SSE來探討這模型好不好
只跟(k-1)和(n-k)有關,查表用的v1跟v2就是這兩個
大於查表的值才是好的模型(具顯著差異)
做迴歸恨不得R平方越高越好,最好有90%以上,那90%是什麼意思?
SSR佔90%,SSE佔10%,假設他們自由度是1,那F值就是9
如果80%那就是80%÷20%=4
再把值丟去查表,大於表定值則顯著,所以F值當然越大越好
2.3 顯著值(p值)
此時需要帶出我們的假設二寶-
虛無假設H0(Null Hypothesis)、對立假設H1(Alternative Hypothesis)
舉例來說,今天我想要知道同家公司男生的薪水跟女生的薪水有沒有差
我的H0:男生薪水=女生薪水
我的H1:男生薪水≠女生薪水
但我壓根不想要計算出來的結果是H0的男=女,如果等於的話為什麼要算咧
醉翁之意在於對立假設H1,把等於的假設推翻了就代表不等於。
型I錯誤(α)、 型II錯誤(β)
先來張經典圖表,很頭痛嗎?沒關係,我們把剛剛的假設帶進來
型I錯誤(α):實際上男=女,結果Reject H1
型II錯誤(β):實際上男≠女,結果Do not reject H0
α自己設(0.1、0.05、0.01等),β則越低越好
話又說回來,所以p值是什麼?
p值(p value)定義:在現有的抽樣樣本下,能Reject H0的min顯著水準
所以p需要<α才能說是顯著(reject H0)的
p值越小H0越不可能發生,越能reject H0,H1會正確的機率就提高了
雖然近年來有些爭議但畢竟是流傳很廣的工具,不得不認識一下
下篇:結論