サイコロ統計学 第4話

前回(第3話)の続きになります。
今回で、サイコロ統計学は一旦終わりにしようと思います。

前回は、「限られた領域にしか適用できない知識や経験は、場合によっては害になり得る」という話をしました。
今回は、「自身が経験した限られた知識をどの程度までなら信用して良いのか」という議題です。
前回は、「経験を 100% 信用するのは良くなさそうだ」という結論を得ました。
今回は、「経験を一切信用しないのも良くない」という話をしましょう。

前回は統計量の Bias と Variance の話をしました。
Bias も Variance も小さくしたい。しかし、いつも、同時に小さくできるとは限らない。どのように Bias と Variance の間のバランスを取れば良いのでしょうか。

前回の復習

値 α の推定量(統計量)を Tα とします。
確率変数 Tα(X) の期待値 E[Tα(X)]と α の差を Tα の Bias と言います。
つまり、Bias of Tα = E[Tα(X)]-α です。
一方で、確率変数 Tα(X) の分散を Tα の Variance と言います。
つまり、Variance of Tα = V[Tα(X)] です。
前回は、(MSE of Tα) = (Variance of Tα) + (Bias of Tα)^2 になるという話をしました。

最小分散不偏推定量

Bias が 0 である推定量(不偏推定量)の中で最も Variance が小さい推定量を最小分散不偏推定量(MVUE)と言います。
この統計量は統計学において重要な意味を持ちますが、必ずしも MSE を最小にするとは限りません。

下図は、Bias と Variance 座標における推定量全体の分布の様子を表したものです。
推定量全体が下図の領域に連続的に分布している保証はないのですが、簡単のためそのように図示しました。
Bias と Variance を両方 0 にできる(そのような推定量が存在する)のであれば、その推定量は様々な点において他の推定量よりも優れていることは言うまでもありません。
しかし、実際には、Bias と Variance の間にはトレードオフの関係があり、Bias を小さくしようとすると Variance が大きくなってしまい、Variance を小さくしようとすると Bias が大きくなってしまいます。
その様子が領域の左下の曲線(フロンティア)に表れています。

下図の赤星は最小分散不偏推定量(MVUE)を表しています。
この点は、不偏推定量(Bias が 0 である推定量)の中では最も Variance が小さくなっています。

一方、MSE = (Bias)^2 + (Variance) なので、MSE を最小にする点は曲線(フロンティア)と 45度線が接する点になります。
この MSE を最小にする点を下図の緑星に表しています。

この 45度線と赤星(MVUE)を比べると、赤星の方が 45度線よりも上にあることが分かります。これは、赤星が MSE を最小にできる点ではないことを意味しています。

つまり、これは「MSE を本当に小さくしたいのであれば、多少 Bias を引き受けてでも Variance を減らしにいった方が良いことがある」ということを意味しています。

Variance を減らすのはとても簡単

Variance の小さい推定量を作るのはとても簡単です。
例えば、定数 M の Variance は 0 です。
つまり、Variance が 0 の推定量はいくらでも作れます。
数多ある Variance 0 の推定量にも良し悪しはあります。
実務では、「他人の経験」・「他分野での経験」・「一般論」・「直感」などを総合的に判断して「えいやっ」で M を決めることになります。

推定量 T の Variance を減らすのも簡単です。
新しい推定量を Tz := Z T + (1-Z)M で構成します。
Z は 0 から 1 までの実数です。
Z = 0 であれば Tz = M ですし、Z = 1 であれば Tz = T です。
Z は T にどれだけの「信頼」を置くかを表しています。
つまり、T の Variance が十分に小さければ、T に対する信頼度を上げるべく、Z の値を大きく取ります。
逆に、T の Variance が大き過ぎるようであれば、T に対する信頼度を下げるべく、Z の値を小さく取ります。

簡単な計算により (Bias of Tz) = Z (Bias of T) + (1-Z) (Bias of M) です。
特に 、T が不偏推定量でれば、(Bias of Tz) = (1-Z) (Bias of M) です。
つまり、Z の値が大きければ大きいほど、Tz が引き受けなくてはいけない Bias は小さくて済みます。

一方で、(Variance of Tz) = Z^2 (Variance of T) です。
つまり、Z の値が小さければ小さいほど、Tz が引き受けなくてはならない Variance は小さくて済みます。

実務では、Z = 0 の M でもなく、Z = 1 の T でもなく、0<Z<1 の適切な Z の値のもと Tz を推定量として採用することになるでしょう。
(ちなみに、このように構成した Tz が MSE を最小にする推定量である保証はどこにもなく、実際には、もっと MSE を小さくする推定量が存在する可能性があります。)

まとめ

つまり「将来を予想する」という意味では下の3点が重要になります。

  1. 値 M (一般論・社会常識・他人や他分野の意見)の構成手順
  2. 統計量 T (個人の経験と知識に基づく考察)の構成手順
  3. 統計量 T に対する信頼度 Z の決定手順

実務では、値 M も確率変数になることが多いです。
これはどういうことかと言うと、一般的に「社会常識」と言われているものも、実は社会が「たまたま」経験してきた事柄に依存しており、広い意味では統計量だということです。
しかし、個人の経験と知識に基づく考察と比較すれば、「社会常識」の Variance は小さいのです。

また、実務では必ずしも Tz を M と T の線型結合で構成するとは限らないでしょう。
大切な事は、「いかに Variance を抱え込まずに、Bias を小さくできるか」という事になります。

UeSaku Diary 公式 Twitter アカウントはこちら

Show your support

Clapping shows how much you appreciated Hidemasa Oda’s story.