用Excel預測美中台股票指數簡單模型-(3)ANOVA表意義

YT Chen
4 min readNov 19, 2019

--

帶你清楚了解ANOVA表

二、ANOVA表

1.迴歸的基礎概念

首先我們先來了解線性迴歸式的構成

y是受影響或你想推論的應變數,β1就是截距,β2、β3就是自變數,

簡單線性迴歸跟多元線性迴歸只差在後面拖多長,開心的話β100也ok

上面有^的代表是估計的結果, ̄的是平均數,Yi是每筆資料的落點

搭配圖可以發現SST=SSR+SSE,總和=迴歸+殘差

細心再拉回上篇看R平方的公式就會看懂,

迴歸模型的解釋係數R平方=迴歸SSR/總和SST,這真是再正常不過了

如果這張圖是一個Model的話那他R平方也會<50%,因為SSE>SSR

2. ANOVA本人-變異數分析(Analysis of Variance)

用白話文總結這三個東西的關係:

總和SST=(每筆資料真實數值-資料的平均)的sum

迴歸部分SSR=(每筆資料估計數值-資料的平均)的sum

殘差部分SSE=(每筆資料真實數值-每筆資料估計數值)的sum

建議是記圖再畫下來比較容易理解

SS÷df=MS

除上自由度變成均方差就是把他標準化,

假設今天請你比較165公分65公斤和170公分70公斤哪個比較胖,

一般人第一個反應會是算BMI,超過24就是胖低於18就是瘦

那統計學同樣是在算BMI,只是公式看起來可怕且要查表的BMI

2-2. F值公式

用標準化後的SSR和SSE來探討這模型好不好

只跟(k-1)和(n-k)有關,查表用的v1跟v2就是這兩個

大於查表的值才是好的模型(具顯著差異)

做迴歸恨不得R平方越高越好,最好有90%以上,那90%是什麼意思?

SSR佔90%,SSE佔10%,假設他們自由度是1,那F值就是9

如果80%那就是80%÷20%=4

再把值丟去查表,大於表定值則顯著,所以F值當然越大越好

2.3 顯著值(p值)

此時需要帶出我們的假設二寶-

虛無假設H0(Null Hypothesis)對立假設H1(Alternative Hypothesis)

舉例來說,今天我想要知道同家公司男生的薪水跟女生的薪水有沒有差

我的H0:男生薪水=女生薪水

我的H1:男生薪水≠女生薪水

但我壓根不想要計算出來的結果是H0的男=女,如果等於的話為什麼要算咧

醉翁之意在於對立假設H1,把等於的假設推翻了就代表不等於。

型I錯誤(α)、 型II錯誤(β)

先來張經典圖表,很頭痛嗎?沒關係,我們把剛剛的假設帶進來

型I錯誤(α):實際上男=女,結果Reject H1

型II錯誤(β):實際上男≠女,結果Do not reject H0

α自己設(0.1、0.05、0.01等),β則越低越好

話又說回來,所以p值是什麼?

p值(p value)定義:在現有的抽樣樣本下,能Reject H0的min顯著水準

所以p需要<α才能說是顯著(reject H0)的

p值越小H0越不可能發生,越能reject H0,H1會正確的機率就提高了

雖然近年來有些爭議但畢竟是流傳很廣的工具,不得不認識一下

下篇:結論

--

--