用Excel預測美中台股票指數簡單模型-(3)ANOVA表意義

4 min readNov 19, 2019

--

帶你清楚了解ANOVA表

二、ANOVA表

1.迴歸的基礎概念

首先我們先來了解線性迴歸式的構成

y是受影響或你想推論的應變數，β1就是截距，β2、β3就是自變數，

簡單線性迴歸跟多元線性迴歸只差在後面拖多長，開心的話β100也ok

上面有^的代表是估計的結果，￣的是平均數，Yi是每筆資料的落點

搭配圖可以發現SST=SSR+SSE，總和=迴歸+殘差

細心再拉回上篇看R平方的公式就會看懂，

迴歸模型的解釋係數R平方=迴歸SSR/總和SST，這真是再正常不過了

如果這張圖是一個Model的話那他R平方也會<50%，因為SSE>SSR

2. ANOVA本人-變異數分析(Analysis of Variance)

用白話文總結這三個東西的關係：

總和SST=(每筆資料真實數值-資料的平均)的sum

迴歸部分SSR=(每筆資料估計數值-資料的平均)的sum

殘差部分SSE=(每筆資料真實數值-每筆資料估計數值)的sum

建議是記圖再畫下來比較容易理解

SS÷df=MS

除上自由度變成均方差就是把他標準化，

假設今天請你比較165公分65公斤和170公分70公斤哪個比較胖，

一般人第一個反應會是算BMI，超過24就是胖低於18就是瘦

那統計學同樣是在算BMI，只是公式看起來可怕且要查表的BMI

2-2. F值公式

用標準化後的SSR和SSE來探討這模型好不好

只跟(k-1)和(n-k)有關，查表用的v1跟v2就是這兩個

大於查表的值才是好的模型(具顯著差異)

做迴歸恨不得R平方越高越好，最好有90%以上，那90%是什麼意思？

SSR佔90%，SSE佔10%，假設他們自由度是1，那F值就是9

如果80%那就是80%÷20%=4

再把值丟去查表，大於表定值則顯著，所以F值當然越大越好

2.3 顯著值(p值)

此時需要帶出我們的假設二寶-

虛無假設H0(Null Hypothesis)、對立假設H1(Alternative Hypothesis)

舉例來說，今天我想要知道同家公司男生的薪水跟女生的薪水有沒有差

我的H0:男生薪水=女生薪水

我的H1:男生薪水≠女生薪水

但我壓根不想要計算出來的結果是H0的男=女，如果等於的話為什麼要算咧

醉翁之意在於對立假設H1，把等於的假設推翻了就代表不等於。

型I錯誤(α)、型II錯誤(β)

先來張經典圖表，很頭痛嗎？沒關係，我們把剛剛的假設帶進來

型I錯誤(α)：實際上男=女，結果Reject H1

型II錯誤(β)：實際上男≠女，結果Do not reject H0

α自己設(0.1、0.05、0.01等)，β則越低越好

話又說回來，所以p值是什麼？

p值(p value)定義：在現有的抽樣樣本下，能Reject H0的min顯著水準

所以p需要<α才能說是顯著(reject H0)的

p值越小H0越不可能發生，越能reject H0，H1會正確的機率就提高了

雖然近年來有些爭議但畢竟是流傳很廣的工具，不得不認識一下

下篇：結論

用Excel預測美中台股票指數簡單模型-(4)結論

導出模型的迴歸式和下結論

medium.com

YT Chen

Written by YT Chen

三折肱而成良醫。

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams