サイコロ統計学 第2話

Hidemasa Oda
UeSaku Diary
Published in
9 min readDec 13, 2015

--

前回(第1話)の続きになります。
前回は Excel を活用してサイコロの平均と分散を求める話をしました。

今日は推定の話をしましょう。
「高校生の皆さんにお馴染みの統計学」や「大学初年度で習う統計学」では、

  1. サイコロを何回か振って、出た目の平均値を求める
  2. サイコロの出る目の確率を事前に教えられた(例えば全ての目が等確率 1/6 で出る)上で、サイコロの目の期待値を求める

といったことを教わったのではないでしょうか。

しかし、実際、仕事をする上では、上の 1. と 2. では不十分な場合もあります。
というのも、

3. サイコロを何回か振って、出た目を良く見て、次にサイコロを降った時に出る目を当てる

という仕事をしなくてはいけない場合もあるからです。

例えば、サイコロを2回振って、2回連続で「1」の目が出たとしましょう。
1. に従って、出た目の平均値を計算すると (1+1)/2 = 1 ですね。
2. に従って、出る目の期待値が 1 になるようなサイコロを考えると、「1」の目が出る確率が 100%、「2」・「3」・「4」・「5」・「6」の目が出る確率が 0% になります。
ということは、次にサイコロを振って出る目は 100%「1」ということなのでしょうか。
いや、そんなはずはないですよね。

「サイコロの目を当てる」ってどういうこと

X を確率変数とします。
X の関数 T を「X の統計量」と言います。
統計量の定義については、以前の記事「95% 信頼区間について」も参考にしてくださいね。

確率変数 X をサイコロの出る目としましょう。
1 回目に出る目を X_1、2 回目に出る目を X_2, … としましょう。
X_1, X_2, … は独立としましょう。
「n 回サイコロを振って、(n+1) 回目のサイコロの目を当てる」
というのは、簡単に説明すると「T という関数を構成して、X_(n+1) を T(X_1, X_2, …, X_n) で近似する」ということです。
例えば、「X_3 を T(X_1, X_2) = (X_1 + X_2) / 2 で近似する」とかですね。

ここで出てきた「近似」という言葉・・・確率変数の場合はどのように定義すれば良いのでしょうか。
1つの考え方は、確率変数 X と 確率変数 T(X) の二乗誤差(Square Error )に着目するというものです。
今回は、確率変数 X と 確率変数 T(X) の二乗誤差の平均(MSE; Mean Square Error)を「近似の良さ」として採用することにしましょう。
つまり、MSE = E[(X_(n+1)-T(X1, …, Xn))^2] です。

今日は n = 0 の場合を考えます。
つまり「サイコロを1回も振らずにサイコロの出る目を当てる」ということですね。
「そんなの絶対に分からないし、そんな事を考えても意味がないのではないか」という声が聞こえてきそうですが、一般化をするためにも、特別な状況から考えていくことが大切です。
(心配しなくても、3話以降、n>0 の場合について議論していきます。)n = 0 の場合は、T(X) は定数になります。つまり、ある実数 t が存在して T = t ですね。

Excel を使って計算してみよう!

今日は2つのサイコロを用意しました。X1 と X2 です。
X1 は正確なサイコロとでもいいましょうか、全ての目が等確率 1/6 で出ます。
X2 は、「1」・「2」の目の出る確率が 0.1、「3」・「4」・「5」・「6」の目が出る確率が 0.2 というサイコロです。

サイコロの目の期待値については、E[X1] = 3.5、E[X2] = 3.9 です(Excel で簡単に計算できるので試してみてくださいね)。

下は、X1 を T = 3.5 で推定したものです。MSE = 2.92 です。(これは X1 の分散 V[X1] と同じ値ですね。)
MSE = 2.92 を下回る T は存在するでしょうか。

下は、X2 を T = 3.5 で推定したものです。MSE = 2.65 です。
MSE = 2.65 を下回る T は存在するでしょうか。

MSE を最も小さくする T を求めたい・・・グラフを書いてみましょう!

X1(赤)は T = 3.5 辺りの時が一番 MSE が小さくなりそうですね。
X2(青)は T = 4.0 辺りの時が一番 MSE が小さくなりそうですね。

もしかして、n=0 の場合は、期待値 T = E[X] の時に MSE は一番小さくなるのでしょうか?

さぁ、大学受験数学の出番だよ!

ここからは皆さんが大好きな大学受験数学のオンパレードです!
(ちなみに小田は大学受験数学は大嫌いです・・・苦手なんです・・・)

自分の部屋の床で寝ていると、柱に時計がぶら下がっています。
自分と時計とは、どれくらい離れているのでしょうか。
もちろん、メジャーで自分と時計との間の距離を測っても良いのです。
しかし、もう少し利口な方法は、まず自分と柱の根元までの距離を測り、次に時計と床(柱の根元)との距離を柱に沿って測り、三平方の定理を用いて、自分と時計との距離を計算するというものです。
柱の根元という「普遍的に意味のありそうな点」を用いて計測を行う所にポイントがあります。

今、X を T = t で近似しようとしています。
X のサンプル x と T = t との二乗誤差は (x-t)^2 ですね。
MSE は確率変数 (X-T)^2 の期待値 E[(X-t)^2] です。
この MSE の最小値を実現する t を発見するにはどうすれば良いのでしょうか。
X から t への道のりを、X から E[X] への道のりと、E[X] から t への道のりへと分解しましょう。
つまり (X-t) = (X-E[X])-(t-E[X]) ですね。
E[X] は、先の時計の例だと、「柱の根元」に当たる値なんですね。
E[X] は X という量を測る基準点みたいなものなんです。
だから、E[X] を基準にして測ると、何か良いことがありそうですね。

(X-t)^2 という式から何か思いつきますか?
そう!余弦定理の出番です!

上の展開式は、数学でも統計学でも物理学でも経済学でも、本当に何でも使えるテクニックなので、覚えておいてくださいね!
そして、大学受験の必須テクニックです!!

ここで、第3項は (X-E[X]) と (t-E[X]) が独立なので、E[(X-E[X])(t-E[X])] = E[(X-E[X])] E[(t-E[X])] となります。
(今、n = 0 としているので上の変形は明らかですが、n > 0 の場合でも、(X_(n+1) -E[X]) と (T[X_1, …, X_n]-E[X]) は独立になるので、同様の式変形ができます。詳しい事は次回に説明しますので、今は気にしなくて良いです。)
ところで、E[X-E[X]] = E[X]-E[E[X]] = E[X]-E[X] = 0 ですね。
つまり、E[(X-E[X])(t-E[X])] = E[(X-E[X])] E[(t-E[X])] = 0 です。
X → E[X] のベクトルと E[X] → t のベクトルは E[-] という操作を行うと直交するんですね!!
つまり、上の展開式は、余弦定理の特別の場合である「三平方の定理」ですね。

第2項については、(t-E[X])^2 は定数なので、期待値を取っても値は変わりません。

第1項については、X の分散 V[X] は E[(X-E[X])^2] のことでしたね(これが分散の定義です)。

上式は、T(X) = t の MSE が X の分散 V[X] より小さくできないことを意味しています。(どんな t を選んでも MSE を V[X] より小さくすることができない。)
また、等号成立条件は t = E[X] です。
そうなんです。n = 0 の場合は、T = E[X] の時に MSE が最も小さくなるんです。

もう一度、T と MSE の関係のグラフを見ていただくと、MSE は T = E[X] の時に最も小さくなり、T が E[X] から離れると MSE が (T-E[X])^2 分だけ増加していることが見て取れると思います。
つまり、これは放物線です。

で、上の議論で、何が分かったんだ・・・

上の議論で分かったことをまとめておきましょう。

  1. (MSE を最小にするという意味において)サイコロの出る目を当てることは、サイコロの出る目の期待値を推定することと同義である。

しかし、実際には E[X] は事前には分からない訳です。
だから、実は上の議論は、実際に仕事をする上では役に立たないかもしれないですね。
でも、大丈夫!次回以降、事前にサイコロを何回か振って(経験を得た上で)次に出る目をあてる話をしていきます。

・・・?サイコロの出る目を当てるってのはサイコロの出る目の期待値を推定することなんでしょ・・・?じゃぁ過去に振って出た目の平均値を求めてそれで終わりなんじゃないの・・・?

違う!!一番最初に述べたけど、サイコロを2回振って「1」の目が2回連続で出たからといって、あなたは3回目に出る目を「1」で当てにいくのでしょうか?
つまり、それは、サイコロを2回振って「1」の目が2回連続で出たからといって、サイコロの出る目の期待値を「1」と推定したことになるんですよ。
それくらいなら、そのサイコロが「正確なサイコロ(全ての目が等確率 1/6 で出るサイコロ」であることを仮定して、T(X) = 3.5 を採用する方がよっぽど理にかなってますよ!
(なぜ T(X) = 3.5 を採用する方がマシなのかを含めて、次回に解説を行っていきます。)

UeSaku Diary 公式 Twitter アカウントはこちら

--

--